
Künstliche Intelligenz ist keine abstrakte, immaterielle Vision der Zukunft mehr – sie ist mittlerweile Teil unseres Alltags und hilft bei medizinischen Diagnosen, Aktienmarktprognosen, löst Aufgaben der Computer Vision, schreibt ausgefeilte Textpassagen und generiert faszinierende Bilder. Hierfür werden riesige Datenmengen und geeignete Modelle benötigt. Doch nicht alle Datensätze und Modelle sind gleichwertig: Was passiert, wenn Entscheidungen auf unsicheren Grundlagen basieren? Was passiert, wenn die Modelle voreingenommen, instabil oder nicht nachvollziehbar sind? Was geschieht, wenn die betreffenden Daten auf unrechtmäßige Weise gesammelt wurden? In einer Welt, in der KI-Algorithmen zunehmend in zentrale Bereiche unseres Lebens eindringen, wird ein Begriff immer bedeutender: Vertrauen.
Die Frage, die sich somit stellt, ist: Wie kann die Vertrauenswürdigkeit von KI-Modellen so objektiv, ganzheitlich und systematisch wie möglich gemessen werden? Auch wenn KI jetzt allgegenwärtig zu sein scheint, haben Forschende diese entscheidende Frage noch nicht beantwortet. Ohne eine Antwort auf diese Frage ist jedoch kein Vergleich zwischen unterschiedlichen Modellen und Datensätzen möglich. Vergleichbarkeit und ein gemeinsames Verständnis solcher Schlüsselbegriffe sollten von größtem Interesse für jede*n KI-Wissenschaftler sein.
Genau hier kommt der FRIES Trust Score ins Spiel. Der Fokus dieses Scores liegt nicht nur auf einer technischen Metrik, sondern auf einem strukturierten Weg zu mehr Transparenz und Vergleichbarkeit in Modellen und Datensätzen. Bevor wir den Score selbst ansprechen können, müssen wir einige Schlüsselbegriffe diskutieren.
Was bedeutet „Vertrauen“ im Kontext Künstlicher Intelligenz?
Vertrauen ist ein Begriff, der oft in der Alltagssprache verwendet wird – aber in der (KI)-Forschung muss er präzise definiert werden, um eine gemeinsame Grundlage des Verständnisses zu schaffen. Da bisher keine formale Definition festgelegt wurde, leiten aus relevanter Literatur ab, dass vertrauenswürdige KI-Modelle und -Datensätze eine Vielzahl ethischer, technischer und sozialer Anforderungen erfüllen müssen und schlagen anschließend eine eigene Definition vor.
Die fünf Säulen des Vertrauens
- Fairness: Modelle und Datensätze dürfen einzelne Gruppen nicht systematisch benachteiligen. Voreingenommene Trainingsdaten oder diskriminierende Entscheidungslogik gefährden die Fairness.
- Robustheit: Modelle und Datensätze müssen auch unter widrigen Bedingungen wie rauschenden Eingabedaten oder gezielten Manipulationsversuchen (z.B. adversarial attacks) zuverlässig funktionieren.
- Integrität: Modelle und Datensätze dürfen nicht unwissentlich manipuliert werden können. Änderungen müssen nachverfolgbar und überprüfbar sein.
- Erklärbarkeit: Modelle müssen Entscheidungen für Entwickler*innen, Anwender*innen und Regulierungsbehörden so transparent wie möglich machen. Ein vollständiger Einblick in die zur Ausbildung eines Modells verwendeten Daten ist ebenso wichtig.
- Sicherheit: Der Schutz sensibler Daten sowie der Zugang zu Modellen muss gewährleistet sein. Datenverletzungen sind um jeden Preis zu vermeiden.
Diese fünf Aspekte bilden das Fundament der Konzeptualisierung von Vertrauenswürdigkeit und dienen als Bewertungsdimensionen für den FRIES Trust Score. Vor diesem Hintergrund definieren wir den Begriff „Vertrauen“ im Kontext des Maschinellen Lernens wie folgt:
Das Konzept von Vertrauen im Maschinellen Lernen umfasst den fairen Umgang mit Daten, robuste Leistungen beim Umgang mit anomalen Daten sowie die Gewährleistung von Daten- und Modellintegrität; dazu gehört auch die Bereitstellung erklärbarer Entscheidungen sowie die sichere Nutzung vertraulicher Informationen.
Jetzt da diese fünf Säulen des Vertrauens sowie deren Definition erläutert wurden, können wir den FRIES Trust Score selbst besprechen.
Von der Qualitätssicherung zur Vertrauensbewertung
Die Konzepte Qualität und Vertrauenswürdigkeit haben viel gemeinsam. In beiden Fällen verlässt sich eine Person konzeptionell auf z.B. ein Produkt, einen Dienst oder eine Vorhersage. Wenn man beispielsweise an die Qualität eines Produkts glaubt, wird es bevorzugt genutzt; es wird kein Gedanke an potenzielle Ausfälle oder Mängel verschwendet (z.B. bei dem Einsatz eines Autos eines Herstellers, der als zuverlässig gilt). Dieses Gefühl – man könnte es als Gefühl des Vertrauens bezeichnen – kann höchst subjektiv sein; Methoden zur Qualitätssicherung existieren jedoch selbstverständlich bereits. Solche Methoden umfassen Six Sigma oder Fehlermöglichkeits- und Einflussanalyse (FMEA). Angesichts der Gemeinsamkeiten zwischen Qualität und Vertrauenswürdigkeit scheint es logisch zu sein, dass Methoden zur Qualitätssicherung als Konsequenz aus dem Fehlen von Methoden zur Vertrauensbewertung eingesetzt werden.
Da sich FMEA (Fehlermöglichkeits- und Einflussanalyse) als bewährte Methode zur Risikoidentifikation- und Bewertung im Ingenieurwesen etabliert hat – insbesondere im Qualitätsmanagement –, macht es Sinn, diesen Ansatz an den Kontext Vertrauenswürdigkeit anzupassen. Unsicherheiten sowie Fehlerquellen müssen ebenfalls in diesem Kontext bewertet werden. Dabei sind jedoch Anpassungen erforderlich.
Die klassische FMEA bewertet Qualitätsrisiken anhand dreier Faktoren auf einer Skala von 1 bis 10:
- Vorkommen (Occurance) (O) – Wie wahrscheinlich ist das Auftreten des Fehlers?
- Bedeutung (Significance) (S) – Wie bedeutend wären die Folgen des Fehlers?
- Entdeckung (Detection) (D) – Wie wahrscheinlich wird der Fehler entdeckt?
Diese Werte werden miteinander multipliziert, um das sogenannte RPN (Risk Priority Number) zu erhalten. Ziel von FMEA ist es dann, das resultierende RPN durch Implementierung neuer Schritte zur Qualitätssicherung zu reduzieren.
Der FRIES Trust Score: Struktur und Funktion
Die FMEA wurde übernommen und angepasst für die Quantifizierung von Vertrauenswürdigkeit. Wir möchten ebenfalls Risiken bewerten, allerdings nur hinsichtlich ihrer Vertrauenswürdigkeit . Darüber hinaus wollen wir Vertrauen an dieser Stelle nicht verbessern sondern lediglich quantifizieren. Da sich FMEA mit Qualitätsverbesserung beschäftigt , liegt es ganz bei den Anwenderinnen, welche Risiken bewertet werden. Diese sind theoretisch endlos, praktisch jedoch nicht miteinander vergleichbar, da jeder Anwenderin unterschiedliche Risiken bewerten könnte. Um diese Quelle subjektiver Wahrnehmung abzuschwächen, stellen wir eine Liste von Risiken pro Aspekt des Vertrauens bereit, sowohl spezifisch für Modelle als auch für Datensätze. Zur Vereinfachung steht diese Liste in einer CLI (Command Line Interface) zur Verfügung, welche ebenfalls den endgültigen Score liefert sowie eine JSON-Datei bereitstellt, welche für nachfolgende Analysen verwendet werden kann.
Im Rahmen von Vertrauenswürdigkeit werden Risiken für jede der fünf Säulen identifiziert (Fairness , Robustheit , Integrität , Erklärbarkeit , Sicherheit). Sie werden durch oben genannte O-, S- sowie D-Werte bewertet, wobei wir diese Werte von 0 bis 10 bewerten (0 = nicht vertrauenswürdig; 10 = völlig vertrauenswürdig ) und ebenfalls multiplizieren. Allerdings wird hierbei eine Kubikwurzel angewendet, um die Punktverteilung zu verbessern. Die Addition des Wertes 0 erlaubt zudem besonders schwerwiegende Risiken hervorzuheben. Dies würde dazu führen, dass ein Modell oder Datensatz insgesamt als nicht vertrauenswürdig eingestuft würde (d.h., das Gesamtergebnis wäre 0, unabhängig von den verbleibenden Unterpunkten). Die resultierenden Scores pro Aspekt werden dann zusammengefasst und je nach spezifischer Aufgabe gewichtet. Schließlich erhält derdie Anwenderin einen FRIES Trust Score, welcher ebenfalls zwischen 0 bis 10 liegt. Dieser lässt sich somit entweder mit Bewertungen anderer Anwenderinnen zum selben Modell oder Datensatz vergleichen oder mit dem Score, welcher bei Anwendung auf ein anderes Modell oder Dataset erzielt wurde.
Wie der Score funktioniert – ein praktisches Beispiel
Ein KI-Modell, welches für automatisierte Bewerberauswahl verwendet wird, könnte folgende Risiken darstellen:
- Fairness: Benutzereingaben führen zu voreingenommenen Entscheidungen (O=9,S=5,D=8)
- Robustheit: Wiederholte Modelldurchführungen erzeugen keine gleichen oder ähnlichen Ergebnisse(O=4,S=5,D=7)
- Integrität: Es gibt keine Unsicherheiten bezüglich Ausgaben(O=9,S=4,D=9)
- Erklärbarkeit: Entscheidungen können von Stakeholdern nicht validiert werden(O=8,S=3,D=9)
- Sicherheit: Unzureichender Zugang zum Modell(O=7,S=4,D=6)
Die Bewertung dieser Risiken – abhängig davon, wie sie gewichtet sind – führt insgesamt zu einem FRIES Trust score von 6.24/10. Ein solcher Wert würde kategorisiert als leicht überdurchschnittlich gelten. Der Score zeigt, dass das System grundlegende Anforderungen erfüllt, aber Raum für Verbesserungen lässt.
Wie geht es weiter?
Der FRIES Trust score stellt einen ersten Schritt hin zu einem gemeinsamen Verständnis des Begriffs „Vertrauen“ dar sowie hin zu einer allgemein verwendeten Methode zur Quantifizierung desselben. Natürlich können berechtigte Kritiken am Ansatz geäußert werden, was wiederum neue Forschungsfragen eröffnet: (Wie) kann die Subjektivität bei Bewertungen verringert werden? Welche Schulung benötigen Anwedner*innen, um den Score korrekt zu benutzen? Kann das Verfahren skaliert werde, um große Systeme effizient einzuschätzen? Sind die enthaltenen Risiken & Aspekte ganzheitlich?
All diese Fragen – und viele weitere – sind absolut legitim. Und werden hoffentlich bald beantwortet. Sicher ist jedenfalls, dass ein gemeinsames Verständnis entscheidender Terminologie in jedem Forschungsfeld notwendig ist – einschließlich vertrauenswürdiger Künstlicher Intelligenz. Mit dem Vorschlag dieser hier präsentierten Definition & Quantifizierungsmetrik hoffen wir hierzu beigetragen haben. Vielleicht noch wichtiger hoffen wir andere Forschende inspiriert zu haben, sodass irgendwann eine allgemein akzeptierte Definition & Quantifizierungsmetrik zum Konzept Vertrauenswürdigkeit innerhalb Künstlicher Intelligenz & darüber hinaus entstehen kann.
Sie möchten noch tiefergreifendes Wissen zu diesem Thema erlangen? Dann lesen Sie das Paper Benchmarking Trust: A Metric for Trustworthy Machine Learning und die Dissertation unseres Autors Verlässliche Identifikation logistischer Entitäten anhand inhärenter visueller Merkmale.