Unsicherheitsschätzung: Wissen, ob man nichts weiß

|Geringe Kontraste erschweren die Verarbeitung durch ein ML-Modell|Aleatorische und epistemische Unsicherheit|Aleatorische und epistemische Unsicherheit||
|© Pexels & Fraunhofer IAIS

In vielen Fällen erreichen Modelle des Maschinellen Lernens, insbesondere tiefe neuronale Netze, eine Qualität, die mit menschlicher Arbeit vergleichbar ist oder diese für eng umrissene Aufgabenstellungen sogar übertrifft. Dennoch handelt es sich nicht um perfekte Systeme – Fehler, etwa in Vorhersagen, treten auf. In manchen Fällen, wenn die gegebenen Daten keine perfekte Vorhersage zulassen, sind sie sogar unvermeidlich. Der Stromverbrauch eines Haushalts in der nächsten Stunde hängt etwa stark von individuellen Entscheidungen der Bewohner*innen ab, die bestenfalls indirekt aus bisherigen Verbrauchsmustern geschlossen werden können. Eine perfekte Vorhersage ist in diesem Fall nicht möglich. In vielen Fällen sind derartige Fehler unkritisch, vor allem dann, wenn diese leicht erkannt werden können und sich der Vorgang beliebig wiederholen lässt. Beispielsweise können für eine Spracherkennung und -steuerung nicht verstandene Anfragen erneut gestellt werden. Andererseits existieren kritische Anwendungsfälle, bei denen diese Voraussetzungen nicht, oder nur bedingt, gegeben sind. Hier können fehlerhafte Vorhersagen der KI-Anwendung zu Personenschäden oder finanziellen Verlusten (beispielsweise Sachschäden, aber auch Opportunitätskosten) führen. In diesen Fällen kann eine gut kalibrierte Unsicherheitsschätzung der Ausgabesicherheit dazu beitragen (i) durch die Erkennung problematischer Ausgaben Fehler zu vermeiden und die Zuverlässigkeit zu erhöhen, sowie (ii) menschlichen Eingriff oder anderweitige Mitigationsstrategien erst möglich zu machen.

In Rahmen dieses Beitrags erläutern wir zunächst die Relevanz von Unsicherheitsschätzung an zwei Beispielen aus der Praxis. Im Anschluss folgt ein kurzer, theoretischer Abriss über die verschiedenen Arten von Unsicherheit bei der datengetriebenen Modellierung sowie die Anforderungen, die an einen Schätzer für diese gestellt werden sollten.

Unsicherheitsschätzung in der Anwendung

Ein typisches Beispiel, aufgrund seiner hohen Anforderungen und Komplexität, ist das autonome Fahren. Hierbei sollte insbesondere die Erkennung vulnerabler Verkehrsteilnehmer*innen (VRUs, zum Beispiel Fußgänger*innen) gewährleistet werden. Einerseits sollten Fehleinschätzungen oder Unwägbarkeiten bezüglich der Position und Trajektorie von Verkehrsteilnehmenden, wie sie etwa auch durch Teilüberdeckung entstehen können, frühzeitig erkannt und in die Planung aufgenommen werden (ein*e Fußgänger*in könnte beispielsweise, wie in untenstehender Abbildung (rechts), weitgehend durch andere Fußgänger*innen oder aber auch Fahrzeuge verdeckt sein, sodass er/sie sich nur teilweise detektieren lässt). Andererseits stellt auch die nicht zuverlässige Erkennung des „Objekt“-typs ein potenzielles Risiko dar, zum Beispiel, wenn ein VRU mit hoher Dynamik, beispielsweise ein*e Radfahrer*in, irrtümlich für einen (im Allgemeinen) sehr viel langsamere VRU, wie ein*e Fußgänger*in, gehalten wird. Hier kann eine Unsicherheitseinschätzung helfen, indem diese*r Teilnehmende gesondert und mit mehr Umsicht in der Planung berücksichtigt wird.

Aber auch abseits vom Schutz menschlichen Lebens leistet „Unsicherheit“ relevante Beiträge. In einer Fertigungsstraße lässt sich zum Beispiel eine Automated Optical Inspection (AOI) zur Qualitätssicherung eines in Serie gefertigten Produktes einsetzen. Eine fehlerhafte Vorhersage kann hier (bestenfalls) zu unnötigem Ausschuss führen, da eigentlich hochwertige Produkte aussortiert werden, oder (schlimmstenfalls) zur Weiterverarbeitung oder zum Verkauf eines fehlerbehafteten Produktes. Auf Basis einer gut kalibrierten Unsicherheit ließe sich zwar nicht die Performanz der KI-Anwendung direkt erhöhen, sie würde aber einen Ausschlag dafür geben, bei welchen Produkten eine weitere Nachprüfung (etwa durch einen Menschen) sinnvoll erscheint. Hierdurch würden (unter der Annahme, dass Mensch und KI unabhängig prüfen) Ausschuss verringert und Qualitätseinbrüche reduziert.

Während die beiden genannten Anwendungsfälle aus dem Bereich der Computer Vision stammen, tritt Unsicherheit in nahezu allen Bereichen des Maschinellen Lernens auf und betrifft alle gängigen Problemstellungen, sei es Klassifikation (z.B. AOI) oder Regression (z.B. Stromverbrauch). Sie belastbar einschätzen zu können, bildet daher eine der zentralen Stoßrichtungen für vertrauenswürdige KI (s. Absicherungsmethoden für KI).

Unsicherheitsschaetzung Bild 1 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© Pexels & Fraunhofer IAIS
Abbildung 1: Unsicherheit im Maschinellen Lernen kommt vielgestaltig daher und unterscheidet sich von Datentyp zu Datentyp. Für Bilddaten lassen sich einige Fälle besonders gut veranschaulichen: So erschweren geringe Kontraste (zum Beispiel bei Nachtaufnahmen, linkes Bild) die Verarbeitung durch ein ML-Modell ebenso wie die (teilweise) Überdeckung (Okklusion) von Personen oder Objekten (rechtes Bild).

Welche Unsicherheitsquellen gibt es?

Unsicherheiten in der Modellvorhersage können aus verschiedensten Quellen stammen. Abgesehen von nur schwer zu vermeidenden leichten Modellschwächen werden in der Literatur meist zwei grundlegende Arten oder Ursachen unterschieden: zum einen epistemische und zum anderen aleatorische Unsicherheit (s. untenstehende Abbildung).

Im ersteren Fall decken die Daten, auf denen das ML-Modell trainiert hat, nicht den gesamten Bereich möglicher Eingabedaten ab und das Modell muss zwischen oder außerhalb der gesehenen Datenpunkte inter- oder extrapolieren. In diesen Bereichen kann oft keine vollständig belastbare Aussage über das eigentlich zu erwartende Ergebnis getroffen werden (im Schaubild also über den „wahren“ Verlauf der Daten). Diese Form von Unsicherheit ist häufig anzutreffen bei Fragestellungen mit im Vergleich zu ihrer Komplexität niedriger Datendichte, bei der starke Anforderungen an die Generalisierungsfähigkeit zwischen Datenpunkten besteht. Sie ist daher auch ein Standardproblem von KI-Anwendungen, die in einem „Open World Context“ eingesetzt werden, bei denen also im Vorhinein nicht alle möglichen Eingabedaten bekannt sein können. Dies betrifft vor allem KI-Anwendungen mit offenen Schnittstellen, etwa frei zugänglich im Internet oder aber auch im öffentlichen Raum (etwa Kamerasysteme von autonomen Fahrzeugen), da dort die Interaktion oder Eingaben nicht immer vorhersagbar sind. Am Beispiel der Personenerkennung für das autonome Fahren könnten Fußgänger*innen im Löwenkostüm für die Anwendung eine zuvor ungesehene Herausforderung darstellen, die um die Karnevalssaison herum aber auftreten kann. Sofern die KI-Anwendung nicht sinnvoll auf diesen Fall extrapoliert, sollte zumindest ein Schätzer für epistemische Unsicherheit anschlagen und die Person als neuartiges „Objekt“ einstufen.

Die zweite Art von Unsicherheit, die aleatorische Unsicherheit, bezeichnet den Daten inhärente Unwägbarkeiten. Prototypische Beispiele sind verrauschte Datensätze, wie etwa der anfangs erwähnte Stromverbrauch eines Haushalts. Allgemein handelt es sich um Problemstellungen, bei denen die Daten keine eindeutige Entscheidung ermöglichen. Dies kann neben dem Regressionsbeispiel auch komplexe Aufgabenstellungen betreffen. Beispielsweise kann es bei der Segmentierung (das heißt pixelgenauen Erkennung von Objekten) Unstimmigkeiten zwischen menschlichen Experten geben, was die genauen Objektgrenzen betrifft. Unter anderem tritt dies im medizinischen Bereich für Unterscheidungen zwischen gesundem und erkranktem Gewebe auf. Um Ergebnisse von KI-Anwendungen für derartige Aufgabenstellungen sinnvoller einschätzen zu können, kann es hilfreich sein, solche Unstimmigkeiten als (aleatorische) Ausgabeunsicherheit mit abzubilden.

Gerade bei komplexen Fragestellungen treten meist beide Arten von Unsicherheit (mit unterschiedlicher Gewichtung) auf. Um KI-Anwendungen in diesen Umfeldern zuverlässig betreiben zu können, ist es oftmals hilfreich, wenn die Belastbarkeit ihrer Aussagen, sei es Klassifikation oder die Vorhersage kontinuierlicher numerischer Ergebnisse, ein- bzw. ihre Unsicherheit abgeschätzt werden kann.

Unsicherheitsschaetzung Bild 2 DE - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© M. Pintz / Fraunhofer IAIS
Abbildung 2: Schematische Darstellung zweier Unsicherheitsarten. Die epistemische Unsicherheit (links) ist vor allem in Bereichen ausgeprägt, in denen das Modell keinerlei Daten gesehen hat. Aleatorische Unsicherheit (rechts) ist eine Eigenschaft der Daten, die hier keinen deterministischen Zusammenhang zwischen x- und y-Werten erkennen lassen. Hierbei kann, wie dargestellt, die Unsicherheit, also die Breite der Datenverteilung, vom konkreten x-Wert abhängen.

Anforderungen an Unsicherheitsschätzer

Gerade bei Anwendungen mit „Open World Context“ kann die Schätzung epistemischer Unsicherheit dazu genutzt werden, um strukturell neue Daten zu erkennen und so das Modell vor Ausgabefehlern zu schützen. Neben dieser Fähigkeit, die auch in anderen Bereichen wie dem Active Learning Anwendung findet, gibt es zwei zentrale Anforderungen an Unsicherheitsschätzer, damit diese sinnvoll nutzbar sind. Dies ist zunächst die häufig in der Literatur diskutierte und bereits oben erwähnte Kalibrierung: Sofern ein KI-Algorithmus eine Klassifikationsaussage, etwa über die Tauglichkeit eines geprüften Produktes, mit 99% Konfidenz tätigt, so ist die Erwartungshaltung, dass von 100 so bewerteten Produkten im Mittel lediglich eins untauglich ist. Für Regression gelten ähnliche Aussagen für vorhergesagte Zielintervalle, innerhalb derer sich der wahre Wert mit 99-prozentiger (oder beliebiger anderer) Wahrscheinlichkeit befinden soll. Es handelt sich bei Kalibrierung also um ein „Performanzmaß“ nicht für die eigentliche KI-Anwendung, sondern für die Güte der zugehörigen Unsicherheitsschätzung. Häufig wird diese über den „Expected Calibration Error“ (ECE) gemessen. Neben dieser (globalen) Kalibrierung ist das Vorhandensein ausreichender Korrelationen zwischen Unsicherheitsschätzung und tatsächlicher Modellqualität für einen gegebenen Input entscheidend, um ausgehend von diesem Schätzwert weitere Schritte, etwa Mitigationsstrategien wie die menschliche Nachprüfung bei der AOI in obigem Beispiel, einzuleiten. Dies bedingt zwingend eine eingabeabhängige Unsicherheitsschätzung.

Fazit

KI-Modelle arbeiten, trotz hoher Leistungsfähigkeit, selten völlig fehlerfrei. Gerade bei sicherheitskritischen Anwendungen ist es daher wichtig, fehlerhafte Vorhersagen möglichst frühzeitig zu erkennen, um Schäden abzuwenden. Eine gut kalibrierte Unsicherheitsschätzung kann, als Form der „Selbstkontrolle“, hierzu beitragen. Deswegen beschäftigt sich das Fraunhofer IAIS mit Lösungsansätzen und Technologien für zuverlässige KI. Weitere Informationen zu entsprechenden Projekten können hier gefunden werden.

Maram Akila, Joachim Sicking,

30. März 2022

Themen

Dr. Maram Akila

Maram Akila forscht am Fraunhofer IAIS zur Absicherung und Zertifizierung von Systemen des maschinellen Lernens. Ein Schwerpunkt sind hierbei Verfahren im Umfeld des Autonomen Fahrens, insbesondere der Objektdetektion. Seit Anfang 2022 begleitet er außerdem das Lamarr-Institut als Koordinator für „Trustworthy ML“.

Joachim Sicking

Joachim Sicking erforscht probabilistische ML-Methoden am Fraunhofer IAIS und promoviert zu Unsicherheitsschätzungen in neuronalen Netzen. Ein Ziel seiner Arbeit sind ML-Systeme, die in offenen Umgebungen verlässlich agieren.

Weitere Blogartikel