Physics-LLM: Neues Forschungsprojekt im Rahmen der ErUM-Data-Förderinitiative

Dr. Tim Ruhe, Principal Investigator am Lamarr Institute, stellvertretend für das Projekt Physics-LLM zur KI-gestützten Verwaltung von Forschungsdaten in der Physik
Dr. Tim Ruhe, Principal Investigator und Koordinator des ErUM-Data-Projekts Physics-LLM

Das neue Forschungsprojekt Physics-LLM entwickelt ein modulares Toolkit für das Forschungsdatenmanagement auf Basis großer Sprachmodelle (LLM) und agentenbasierter KI, das die Arbeitsabläufe von Forschenden über den gesamten Lebenszyklus wissenschaftlicher Entdeckungen hinweg unterstützt – von der Metadatenannotation und intelligenten Datenabfrage bis hin zu Analyse-Pipelines und der reproduzierbaren Wiederverwendung von Prozessen.  Das Projekt wird im Rahmen von ErUM-Data gefördert, einer deutschen nationalen Förderinitiative des Bundesministeriums für Forschung, Technologie und Raumfahrt. Unter der Leitung von Dr. Tim Ruhe, Associated Principal Investigator am Lamarr-Institut für Maschinelles Lernen und Künstliche Intelligenz, vereint Physics-LLM Fachwissen aus den Bereichen Physik, Informatik und Datenwissenschaft, um wachsende Datenmengen in nutzbare wissenschaftliche Ressourcen umzuwandeln.

Physics-LLM entwickelt KI-basierte Tools, um die Physikforschung grundlegend zu beschleunigen, indem es mithilfe von LLM-Agenten die automatisierte Datenauswahl, Datenmanagement-Pipelines und die Reproduzierbarkeit von Analyseprozessen optimiert, sodass vielfältige Forschungsdaten in der Physik leichter entdeckt, verstanden und im richtigen Kontext wiederverwendet werden können. Das Toolkit wird Komponenten für die automatisierte Anreicherung von Metadaten, die semantische Suche über heterogene Quellen hinweg und die KI-gestützte Dokumentation von Arbeitsabläufen bereitstellen. Es integriert sowohl klassische Forschungsdaten als auch nicht-klassische Quellen wie Software-Repositorien und elektronische Laborjournale, die für reproduzierbare Wissenschaft unerlässlich sind.

„Physics-LLM verfolgt das Ziel, FAIR-Datenprinzipien durch KI-gestützte Workflows zu operationalisieren, die strukturierte und unstrukturierte Forschungsergebnisse über den gesamten Lebenszyklus von Physikdaten hinweg integrieren“, sagt Dr. Tim Ruhe. Durch die Überführung der FAIR-Datenprinzipien (Forschungsdaten sollen auffindbar, zugänglich, interoperabel und wiederverwendbar über Projekte, Experimente und Institutionen hinweg sein) in konkrete, KI-gestützte Arbeitsabläufe leistet Physics-LLM einen direkten Beitrag zu den Kernzielen von ErUM-Data.

„LLMs sind leistungsstark im Umgang mit wissenschaftlicher Sprache, aber in der Physik müssen sie auch präzise und nachvollziehbar sein. Die Physik produziert nicht nur Daten, sondern auch Codes, Notizen und Analyseentscheidungen. Mit LLM-Agenten können wir diese Teile zu einem durchsuchbaren, wiederverwendbaren und glaubwürdigen Forschungsprotokoll verbinden – und so verstreute Ergebnisse in Arbeitsabläufe umwandeln, die andere verstehen und reproduzieren können“, sagt Prof. Dr. Lucie Flek, Lamarr-Chair für Natural Language Processing.

ErUM-Data wird vom Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR) gefördert und unterstützt große Verbundprojekte, die nachhaltige, interoperable und KI-fähige Forschungsdateninfrastrukturen für die Physik aufbauen. Das Projekt Physics-LLM wird dabei mit rund 2,8 Millionen Euro über eine Laufzeit von drei Jahren gefördert. Mit seinem interdisziplinären Konsortium und der starken Einbindung von KI-Expertise aus dem Lamarr-Institut zeigt Physics-LLM, wie fortschrittliche KI-Methoden in praktische Forschungsdaten-Workflows umgesetzt werden können – und stärkt damit die Grundlagen der datengetriebenen Physikforschung in Deutschland.
 

Weitere News