
Künstliche Intelligenz gewinnt in der heutigen Gesellschaft rasant an Bedeutung und Präsenz. Nicht nur große Konzerne und Fachpersonal, sondern auch kleinere Unternehmen und Personen ohne technisches Vorwissen nutzen heutzutage KI. Entscheidet sich eine Firma dafür, mit Künstlicher Intelligenz zu arbeiten, sind an diesem Entscheidungsprozess viele verschiedene Personen mit unterschiedlichem Hintergrundwissen beteiligt. Trotz verschiedener Expertisen und Wissensstände müssen sich alle Beteiligten auf ein Ergebnis einigen. Dabei ist es oft schwierig, alle involvierten Parteien auf denselben Informationsstand zu bringen. Diese Informations- und Kommunikationslücken erschweren fundierte und informierte Entscheidungen. Langfristig steht dieses Problem einer nachhaltigen sowie vertrauenswürdigen Nutzung von KI im Weg. Um dies zu gewährleisten, müssen die vorliegenden Kommunikationslücken geschlossen werden.
Wie also können diese drängenden Probleme adressiert werden? Zur Vereinfachung der Kommunikation innerhalb dieser Entscheidungsprozesse haben Forschende des Lamarr-Instituts an der TU Dortmund das Konzept der KI-Labels entwickelt, welche sich an dem Energielabel der EU orientieren. Diese sollen komplexe Informationen über KI-Modelle so darstellen, dass sie auch für Nicht-Expert*innen verständlich sind. KI-Labeling kann so eine zielführende Möglichkeit sein, um Transparenz zu schaffen, Kommunikationslücken zwischen Parteien zu schließen, und die Nutzung und Entwicklung von KI nachhaltiger zu gestalten. In der Theorie lässt sich bereits sagen, dass KI-Labeling großes Optimierungspotenzial hat. Da andere Kennzeichnungssysteme und KI-Vertrauenssiegel bezüglich ihrer Wirksamkeit und Effektivität jedoch in der jüngsten Vergangenheit kritisiert wurden, ist es besonders wichtig, das Labeling bereits frühzeitig zu evaluieren. So können Potenziale realistisch eingeschätzt werden und die Methode kann bei Bedarf angepasst werden.

© Raphael Fischer
Qualitative Studie zur Praktischen Evaluation
Um den praktischen Nutzen von KI-Labeling zu evaluieren, wurde eine qualitative Nutzer*innenstudie durchgeführt. Mithilfe von Interviews wurden dafür die vorgeschlagenen KI-Labels hinsichtlich zentraler Forschungsfragen untersucht:
- Wer ist an KI-Labels interessiert und welche Herausforderungen erleben sie beim Einsatz oder der Entwicklung von KI?
- Welche praktischen Vorteile und Grenzen hat die Kennzeichnung des Verhaltens von KI-Modellen?
- Wie werden KI-Labels im Vergleich zu anderen Informationsformaten wahrgenommen?
- Wie wirken sich KI-Labels und dazugehörige Zertifizierungsstellen auf das Vertrauen in KI-Systeme aus?
Entlang der Forschungsfragen wurde ein Interviewleitfaden erstellt und ein Aufruf zur Studie veröffentlicht. Insgesamt wurden 16 Teilnehmende, darunter Entwickler*innen, Anwender*innen und Interessierte ohne Fachwissen, in halbstrukturierten Interviews zu ihren Erfahrungen und Einschätzungen befragt. Basierend auf dem Leitfaden wurden die Interviewten zunächst gebeten, sich selbst und ihr Verhältnis zu KI vorzustellen sowie ihre alltäglichen Herausforderungen zu beschreiben. Anschließend wurde ihnen ein Prototyp eines KI-Labels präsentiert, welchen sie beschreiben und mögliche Vor- und Nachteile nennen sollten. Anschließend wurde ein zweites KI-Label präsentiert, woraufhin die Befragten die Möglichkeit hatten, diese miteinander zu vergleichen und weitere Punkte zu nennen, die sie hilfreich oder verwirrend fanden. Im dritten Teil des Interviewleitfadens stellten die Interviewer*innen den Teilnehmer*innen verschiedene Berichts- und Darstellungsweisen vor, welche die Befragten mit der Darstellungsform des KI-Labels vergleichen sollten. Zuletzt ging es um die Vertrauenswürdigkeit, Zertifizierung und Regulierung der KI-Labels. Die Teilnehmenden wurden gefragt, wer KI-Labels erstellen und herausgeben könnte, sowie welcher Instanz sie am ehesten Vertrauen schenken würden. Die Interviews wurden aufgezeichnet, transkribiert, codiert und qualitativ ausgewertet. Dabei wurde ein induktiver Ansatz gewählt, das Codesystem iterativ angepasst und die Intercoder-Reliabilität geprüft.
Von der Theorie zur Praxis: Was KI-Labels leisten müssen
Um herauszufinden, was bei der Entwicklung von KI-Labels berücksichtigt werden muss, wurden zunächst die diversen Gruppen von Nutzenden sowie deren Bedürfnisse und Anforderungen erfasst. In der Analyse zeigte sich, dass KI-Labeling sowohl für Nutzer*innen, Manager*innen, Kund*innen, Expert*innen und Entwickler*innen von KI nützlich sein kann. Die Vorkenntnisse und Anforderungen dieser unterschiedlichen Gruppen sind ebenso divers wie die daraus resultierenden Herausforderungen im Umgang mit KI.
Die meisten Teilnehmenden betonten die Vorhersagegenauigkeit und die Leistungsfähigkeit als zentrale Anforderungen an Künstliche Intelligenz. Auch die Verfügbarkeit der Daten sowie der Schutz persönlicher und sensibler Informationen war den Befragten besonders wichtig. Die Kommunikation über die Modelle wurde von vielen als besonders herausfordernd empfunden, wofür oft Probleme hinsichtlich Verständlichkeit und Transparenz als Ursache benannt wurden. Wissenslücken zwischen Beteiligten sowie fehlende Aufklärung in Unternehmen behindern außerdem anscheinend zudem die Mitarbeitendeneinbindung und verstärken Unsicherheiten im Umgang mit neuen KI-Tools.
Hervorgehoben wurden durch die Befragten vor allem die Kommunikationslücken sowie die Verständlichkeit und Transparenz bei KI-Modellen. Das KI-Label, das den Teilnehmenden präsentiert wurde, wurde als hilfreiches Mittel zur Förderung von Kommunikation und Wissensvermittlung wahrgenommen. Als besonders hilfreich galt die übersichtliche Darstellung, da diese die Vergleichbarkeit der Modelle erleichtern würde sowie Entscheidungsprozesse unterstützen könne. Auch das Design und die Farbcodierung wurden gelobt. Unter anderem fördere die Darstellungsweise das Bewusstsein für den Zusammenhang zwischen Nachhaltigkeit und Effizienz. KI-Labels können also nicht nur informativ sein, sondern auch als Entscheidungshelfer in Sachen Nachhaltigkeit fungieren, indem sie die Aufmerksamkeit auf nachhaltigkeitsrelevante Merkmale wie den Energieverbrauch lenken.
Obwohl die vereinfachte Darstellung der KI-Labels als ein Vorteil genannt wurde, erkennen einige der Befragten auch eine Gefahr, denn der Verlust von Tiefe könne zu Missverständnissen führen. Besonders der Begriff „Robustness“, die Gewichtung der Metriken und der Gesamtscore führten bei den Teilnehmenden zu Missinterpretationen. Auch die Farbcodierung wurde teilweise kritisiert, da sie für farbenblinde Personen nicht barrierefrei sei. Als Lösungen schlugen die Teilnehmenden zusätzliche Buchstabenbewertungen, Rückseiten mit Erklärungen und interaktive KI-Labels vor, die je nach Zielgruppe unterschiedliche Informationen enthalten.
Im Vergleich mit anderen Kommunikationsformen kann die bereits erwähnte fehlende Tiefe der KI-Label ein Nachteil sein. Jedoch sei keine der Berichtsformen so einfach und zeiteffizient wie das Label. Zusätzlich sehe man bei dem Label die wichtigsten Punkte auf einen Blick. Viele der Beteiligten gaben an, dass sie das KI-Label als eine Art Zwischenlösung sehen würden und es als Ergänzung zu den anderen Berichtsformen verwenden würden, welche alle Beteiligten zusammenbringen könne.
Bei der Frage, ob KI-Labels dafür geeignet sind, Vertrauen herzustellen, gab es unterschiedliche Sichtweisen. Einige sahen in den von Fachleuten geprüften KI-Labels ein hilfreiches Tool, während andere daran zweifelten, ob Kennzahlen dafür ausreichen, Vertrauen zu schaffen. Zentral war in diesem Zusammenhang auch die Frage nach der Glaubwürdigkeit der möglichen ausstellenden Institution. Einige sind der Meinung, dass sie die Modelle lieber selbst testen würden, während andere die Verlässlichkeit der verantwortlichen Autoritäten mit in Betracht ziehen. Die Hälfte der Interviewten äußert Zweifel an der Objektivität möglicher ausstellender Institutionen, da sie bestochen werden könnten oder das System austricksen könnten, wie es bei anderen Siegeln schon vorgekommen sei. Wer genau diese Aufgabe übernehmen soll, blieb offen, denn eine klare Zuständigkeit konnte niemand benennen. Deutlich wurde jedoch: Ob Labels Vertrauen schaffen können, hängt stark vom Vorwissen der jeweiligen Zielgruppe ab. Je nach Kenntnisstand unterscheiden sich die Erwartungen an Glaubwürdigkeit teils erheblich.
Fazit: Warum KI-Labels wichtig, relevant und wertvoll sind
Die zunehmende Verbreitung von Künstlicher Intelligenz stellt Organisationen vor neue Herausforderungen, insbesondere in der Kommunikation über komplexe Systeme. Unterschiedliche Wissensstände, fehlende Transparenz und Unsicherheit im Umgang mit KI erschweren fundierte Entscheidungen. Genau hier setzen KI-Labels an. Sie sollen zentrale Informationen über KI-Modelle verständlich, vergleichbar und zugänglich machen, sowohl für Expert*innen als auch für Personen ohne KI-Hintergrund.
Die Nutzer*innenstudie zeigt, dass ein realer Bedarf an solchen vereinfachten Darstellungsformen besteht. KI-Labels können als Brücke zwischen Expert*innen und Anwender*innen dienen, Missverständnisse reduzieren und die Einbindung von Mitarbeitenden erleichtern. Besonders für Gruppen von Nutzenden ohne technisches Hintergrundwissen bieten sie einen schnellen Zugang zu relevanten Informationen und unterstützen damit eine verantwortungsvolle und reflektierte Nutzung von KI. Die zentrale Herausforderung ist hier, dass die Informationen zwar verständlich präsentiert werden müssen, jedoch dürfen tiefergehende Details nicht verloren gehen. Da je nach Nutzer*innengruppe unterschiedliche Informationen gefragt sind, ist ein „one-size-fits-all“-KI-Label nicht ausreichend. Daher sollten KI-Labels interaktiv gestaltet sein, sodass jede Zielgruppe passende Informationen erhält. Des Weiteren sollte die Verknüpfung von KI-Labels mit anderen Berichtsformen berücksichtigt werden, damit interessierte Nutzer*innen tiefer ins Detail eintauchen können, was die Wirksamkeit und Vertrauenswürdigkeit der KI-Labels steigern könnte. Zudem wirken KI-Labels nicht nur informativ, sondern können auch als Entscheidungshelfer für verantwortungsvolle KI-Nutzung dienen, indem sie bestimmte Leistungsaspekte von Modellen hervorheben. In Bezug auf Nachhaltigkeit könnten KI-Labels also den Fokus weg von bloßer Performance hin zu Umweltaspekten lenken. Zusammenfassend lässt sich sagen, dass die KI-Labels bei den Teilnehmenden sehr gut ankamen und viel Lob erhielten. Trotzdem müssen sie hinsichtlich der genannten Aspekte verbessert und überarbeitet werden, sodass ihr volles Potenzial von jeder Nutzer*innengruppe genutzt werden kann.
Grenzen der Studie und Ausblick auf weitere Forschung
So aufschlussreich die Studie auch ist, ganz ohne Einschränkungen kommt sie nicht aus. Die Rekrutierung der Teilnehmenden könnte zu einer Verzerrung der Stichprobe geführt haben, was die Übertragbarkeit der Ergebnisse einschränkt. Auch bei der Präsentation der KI-Labels ist Vorsicht geboten: Da diese von den Forschenden selbst entwickelt wurden, ist eine unbewusste Beeinflussung der Teilnehmenden nicht auszuschließen.
Die Ergebnisse der Studie werden im Rahmen der diesjährigen „Conference on AI, Ethics and Society“ (AIES) präsentiert und publiziert. Um die Aussagen weiter abzusichern, bietet sich eine anschließende quantitative Studie mit einer größeren Teilnehmerzahl an. So ließen sich die Ergebnisse statistisch stärker untermauern. Gleichzeitig könnten in einer solchen Folgestudie verschiedene Gestaltungsvarianten der KI-Labels in realitätsnäheren Anwendungsszenarien getestet werden um herauszufinden, welche Aspekte tatsächlich Vertrauen schaffen.