Informed Machine Learning – Aus Daten und Vorwissen lernen

Informed Machine Learning|Informed Machine Learning Prozess|Informed Machine Learning Pipeline|
© CNStock/stock.adobe.com

Künstliche Intelligenz bietet enorm großes Potential, jedoch auch einige Herausforderungen. So müssen für das Trainieren von Machine Learning Modellen generell sehr große Datenmengen zur Verfügung stehen. Die gelernten Modelle müssen zudem vertrauenswürdig („trustworthy“) sein, um mit ihnen abgesicherte Entscheidungen zu treffen. Die Mittel, um diesen Herausforderungen zu begegnen, liegen häufig bereits an anderer Stelle vor – und zwar in Form von Vorwissen. Die Idee von Informed Machine Learning ist es, solche bereits bestehenden Wissensquellen für das Maschinelle Lernen nutzbar zu machen. So ist es möglich, Modelle auch bei geringeren Datenmengen zu trainieren oder gelernte Modelle mithilfe von Vorwissen abzusichern.

Bestehende Wissensquellen nutzbar machen

In vielen Firmen oder Instituten gibt es langjähriges Fachwissen, das zum Beispiel in Form von analytischen Modellen, Simulationen, oder Wissensgraphen vorliegt. Solche Wissensformen werden in den verschiedensten Anwendungsbereichen genutzt, wie folgende Beispiele veranschaulichen: In der Klimatologie werden physikalische Formeln genutzt, um die thermodynamischen Eigenschaften von Luft und Wasser zu beschreiben. Im autonomen Fahren können Verkehrsszenen mithilfe von Simulationen nachgestellt werden. In der Textverarbeitung können semantische und syntaktische Regeln in Wissensgraphen dargestellt werden. All diese vielfältigen Wissensquellen können mithilfe von Informed Machine Learning nutzbar gemacht werden.

In unserer Forschung haben wir beobachtet, dass das in Informed Machine Learning genutzte Vorwissen, aus drei übergeordneten Kategorien kommt und je nachdem unterschiedlich repräsentiert wird. Häufig kommt das Wissen aus den Natur- oder Ingenieurswissenschaften und wird zum Beispiel in Gleichungen oder Simulationsergebnissen dargestellt. Eine weitere Kategorie ist Weltwissen, das unter anderem Sprache und visuelle Konzepte beschreibt. Dieses wird zum Beispiel in Form von logischen Regeln oder auch Wissensgraphen repräsentiert. Darüber hinaus kann auch eher intuitives Expertenwissen genutzt werden und zum Beispiel durch direktes menschliches Feedback oder probabilistische Relationen dargestellt werden.

Informed ML lernt Modelle aus Daten und Vorwissen

Diese Wissensquellen kann man zusätzlich zu den eigentlichen Trainingsdaten in das Maschinelle Lernen einbinden. Mithilfe einer solchen hybriden Informationsquelle kann man dann die Stärken aus daten- und wissensgetriebener Modellierung kombinieren: Anhand der Daten können neue, unbekannte Muster aufgedeckt werden und anhand des Vorwissens können bereits abgesicherte Aussagen eingebunden und die Datenmenge reduziert werden.

Für die technische Integration des Vorwissens in maschinelle Lernverfahren gibt es unterschiedliche Strategien, die von der vorliegenden Repräsentation und dem eigentlichen Ziel der Wissensintegration abhängen. Generell gibt es vier Stufen, in denen das Vorwissen eingebunden werden kann: in den Trainingsdaten, im Modellraum, im Lernalgorithmus, oder im finalen Modell (Siehe Abbildung 1).

Pipeline - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© ML2R
Illustration des Informed Machine Learning Prozesses: Neben Daten wird Vorwissen in das maschinelle Lernverfahren eingebunden.

Möchte man Modelle mit ursprünglich geringen Datenmengen trainieren und hat außerdem Zugriff auf Simulationen, so bietet es sich an, diese zu nutzen, um zusätzliche synthetische Daten zu erzeugen. Möchte man hingegen Modelle absichern, ist die Validierung eines fertig gelernten Modells anhand von beispielsweise Wissensgraphen eine Möglichkeit. Eine Strategie zur Einbindung von Vorwissen, die sich für beide Ziele eignet, ist die Integration in den Lernalgorithmus durch wissensbasierte Regularisierungsterme. Diese können aus naturwissenschaftlichen Gleichungen oder logischen Regeln stammen.

Vertrauenswürdige Modelle lernen und geringe Datenmengen ausgleichen

Informed Machine Learning macht bestehende Wissensquellen nutzbar und integriert sie in maschinelle Lernverfahren. Damit können Modelle basierend auf Daten und Vorwissen trainiert werden. Dies bietet die Vorteile, dass ursprünglich geringe Datenmengen ausgeglichen werden können und das Lernverfahren gegen bestehendes Wissen abgesichert werden kann.

Für das autonome Fahren bedeutet dies zum Beispiel Folgendes: Neben den vorhandenen Daten können zusätzliche Verkehrsszenen simuliert und als zusätzliche Trainingsdaten genutzt werden. Außerdem können sie für die Validierung bereits gelernter Modelle verwendet werden. Beides führt dazu, dass die gelernten Modelle robuster sind und erhöht somit die Sicherheit im autonomen Fahren.

Auch wenn die Anwendung von Informed Machine Learning insgesamt noch am Anfang steht, versprechen die Vorteile zusammen mit den vielfältigen Einsatzbereichen und Integrationsmethoden großes Potential. Das Kompetenzzentrum ML2R treibt die Erforschung wissensintegrierender maschineller Lernverfahren maßgeblich voran.

Mehr Informationen in den dazugehörigen Papern:

Informed Machine Learning – A Taxonomy and Survey of Integrating Knowledge into Learning Systems Laura von Rueden, Sebastian Mayer, Katharina Beckh, Bogdan Georgiev, Sven Giesselbach, Raoul Heese, Birgit Kirsch, Julius Pfrommer, Annika Pick, Rajkumar Ramamurthy, Michał Walczak, Jochen Garcke, Christian Bauckhage, Jannis Schuecker. ArXiv, 2019, PDF.

Combining Machine Learning and Simulation to a Hybrid Modelling Approach: Current and Future Directions Laura von Rueden, Sebastian Mayer, Rafet Sifa, Christian Bauckhage, Jochen Garcke. IDA, 2020, PDF.

Laura von Rueden

Laura von Rueden ist wissenschaftliche Mitarbeiterin am Lamarr-Standort des Fraunhofer IAIS in Sankt Augustin. Ihr Forschungsschwerpunkt ist Informed Machine Learning. Sie strebt hierbei die Kombination von Daten-basiertem Maschinellen Lernen mit Wissens-basierter Modellierung an.

Weitere Blogartikel