KI-basierte Root-Cause-Analyse in der Praxis

|Prozessdiagramm der Root-Cause-Analyse|Plot eines Fehlerursachen-Prototyps|Es ist ein nachdenkliches Strichmännchen zu sehen||||

|© Fraunhofer IAIS|© Fraunhofer IAIS

Noch interessanter als die KI-basierte Prognose von Fehlern – zum Beispiel in der industriellen Produktion – ist es für Unternehmen zu verstehen, warum Fehler überhaupt auftreten bzw. warum ein konkreter Fehler aufgetreten ist und welche Handlungen zu seiner Abhilfe und zur Vermeidung von weiteren Fehlern durchzuführen sind.

Die Suche nach Schwachstellen bzw. Fehlerursachen ist unter dem Begriff „Fehleranalyse“ (englisch „Root-Cause-Analysis“) bekannt. Ziel einer solchen Analyse ist es in der Praxis:

Stillstandzeiten in der Produktion zu verkürzen bzw. zu vermeiden
Qualitätsmängel bei den hergestellten Produkten zu reduzieren
Unbekannte Wirkzusammenhänge zu erkennen und diese nachfolgend für die Optimierung der Produktionsanlagen und -prozesse zu nutzen

Eine Root-Cause-Analyse stellt angesichts von stets steigenden Qualitäts- und Optimierungsanforderungen eine kontinuierliche Aufgabe und Bestandteil des kontinuierlichen Verbesserungsprozesses eines Unternehmens dar.

Abb RCA - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI) — © Fraunhofer IAIS

In modernen, digitalen Produktionsanlagen werden heute riesige Datenmengen aufgezeichnet, die sich mit einfachen Mitteln nicht mehr analysieren lassen.

KI-Methoden können helfen, wenn es gilt Hinweise auf mögliche Fehlerursachen in diesen Datenmengen zu finden. Wichtig ist es, dass in diesen Daten auch genügend Fehlerfälle dokumentiert sind, so dass kausale Zusammenhänge statistisch valide gefunden werden können. Betrachtet werden also nicht Ursachen von seltenen Fehlern, sondern die Gründe von alltäglichen Fehlern bzw. Produktionsstörungen.

Ohne Anwendungsexperten geht es nicht

Natürlich gibt es in jedem Unternehmen Expertinnen, die „den Laden am Laufen halten“, das heißt Probleme beheben, Schwachstellen erkennen und die Produktion optimieren. Auch wenn nun riesige Datenmengen vorliegen, darf man nicht dem Irrglauben erliegen, dass die Künstliche Intelligenz das Wissen und die Erfahrung von Anwendungsexpertinnen überflüssig machen könnte. Die Komplexität der Produktionsanlagen und der kritischen Fehlersituationen und damit der Schwierigkeitsgrad ist äußerst hoch (die einfachen Fehler sind in der Regel auch ohne KI längst behoben). Dies reflektiert sich auch in der Datenlage: Es gibt meist viele, untereinander korrelierte Einflussfaktoren und eine – relativ dazu – kleine Menge an Fehlerfällen. Diese und auch andere Faktoren erschweren die Datenanalyse, so dass im Interesse eines bestmöglichen Ergebnisses die Einbindung von Anwendungsexpert*innen essenziell ist. Von einer mindestens doppelt so langen Liste seien hier nur drei wichtige Aspekte erwähnt:

In der Praxis bewährte Heuristiken zur Fehlerbehebung können ausgenutzt werden, um die Komplexität der Aufgabenstellung zu reduzieren.
Fachwissen, das nicht in den Daten enthalten ist, kann einfließen.
Anwendungsexpert*innen müssen KI-Ergebnisse validieren, um echte Ursachen von anderen korrelierten Ereignissen (zum Beispiel andere Fehler-Symptome) zu unterscheiden.

Ziele und Formen der Zusammenarbeit zwischen Anwendungsexpert*innen und Data Scientists werden in unserem Whitepaper ausführlich diskutiert.

Whitepaper RCA web Cover - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI) — © Fraunhofer IAIS

Die besondere Herausforderung: Zeitreihen

Produktionsprozesse sind physikalische Vorgänge, die sich in mehreren Verarbeitungsschritten über einen längeren Zeitraum erstrecken. Sie werden in der Regel zeitdiskret überwacht und die aufgezeichneten Daten zu langen Zeitreihen aggregiert, die den Verlauf dokumentieren und die es zu analysieren gilt. Diese Zeitreihen sind meist hochdimensional (zum Beispiel vereinen sie die Werte vieler Sensoren) und können mehrere hundert Zeitschritte umfassen. Solche Zeitreihen enthalten eine Unzahl an möglichen Mustern. Die Frage, welche davon ursächlich für das Auftreten eines Fehlers sein könnte, gleicht der Suche einer Nadel in einem Heuhaufen.

Plot 1 Strichmaennchen - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI) — © Anja/stock.adobe.com & ML2R

Fraunhofer IAIS hat, basierend auf jüngsten Forschungsergebnissen und Projekterfahrungen, einen neuen technischen Ansatz für die KI-basierte Root-Cause-Analyse auf Zeitreihen-Daten entwickelt.

Dieser Ansatz verwendet sogenannte tiefe Neuronale Netze, um in mehrdimensionalen Zeitreihen Fehlerursachen-Prototypen zu finden. Ein solcher Prototyp ist eine kurze Zeitreihe, die den zeitlichen Verlauf von wenigen (beispielsweise 3 bis 5) Messstellen darstellt, und die durch das Neuronale Netz in ähnlicher Form mit einer Reihe von Fehlern in Verbindung gebracht wird.

Plot 2 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI) — © Fraunhofer IAIS
Beispiel eines Fehlerursachen-Prototyps

Typischerweise werden zwischen 10 und 20 solcher Fehlerursachen-Prototypen durch das Neuronale Netz gefunden. Diese Prototypen müssen nun mit Anwendungsexpert*innen anhand von Fallbeispielen diskutiert und interpretiert werden, um die Fehlerursache zu verstehen. Im Zuge dessen wird die Komplexität des Prototyps (insbesondere die Anzahl der zu betrachteten Messstellen und die Länge der zu betrachtenden Zeitreihe) reduziert. Aus dem hierdurch gewonnenen Verständnis können nun Handlungsanweisungen erstellt werden, wie bei dem Auftreten dieses Fehlers adäquat reagiert werden soll. Außerdem können konstruktive Maßnahmen ergriffen werden, die das Auftreten dieses Fehles zukünftig minimieren.

Fazit

Die Erfahrung von vielfältigen Projekten hat gezeigt, dass eine erfolgreiche, KI-basierte Root-Cause-Analyse meist nur gelingen kann, wenn man führende KI-Verfahren mit Methoden zur Einbindung von Expertenwissen kombiniert. Für die bei Produktionsprozessen typischerweise anfallenden Zeitreihendaten hat Fraunhofer IAIS ein spezielles Analyseverfahren entwickelt. Dadurch ist es möglich, automatisch aufgezeichnete Produktionsdaten für die Analyse von hochkomplexen Produktionsprozessen auszuwerten und so Wirkzusammenhänge zu erkennen, die mit konventionellen Methoden der Root-Cause-Analyse verborgen geblieben wären.

Hans-Ulrich Kobialka,

26. Januar 2022

Themen

Anwendung

Fehleranalyse in Produktionsprozessen mit einer KI-basierten Root-Cause-Analyse

Ohne Anwendungsexperten geht es nicht

Die besondere Herausforderung: Zeitreihen

Fazit

Themen

Schlagworte

Hans-Ulrich Kobialka

Weitere Blogartikel