In der heutigen Zeit sind audiovisuelle Daten aus dem Alltag vieler Berufsgruppen kaum wegzudenken. Für Journalist*innen, Redakteur*innen, Forscher*innen unterschiedlicher Disziplinen, Content-Creator, Museumsmitarbeiter*innen und Archivar*innen stellen diese Daten einen wesentlichen Kern der alltägigen Arbeit dar. Ein rasantes Wachstum öffentlicher, aber auch hauseigener, zugriffsbeschränkter audiovisueller Datenbestände stellt diese Personengruppen in den letzten Jahren vor immer größere Herausforderungen.
Die Erschließung solcher Daten mit Methoden der Künstlichen Intelligenz vereinfachen bereits seit mehreren Jahren die Arbeit einiger dieser Berufsgruppen – beispielsweise durch Textsuche in Videos mittels automatischer Spracherkennung. Jedoch ist hiermit das Potential für audiovisuelle Suche noch lange nicht ausgeschöpft.
Suche in audiovisuellen Datenbeständen
Audiovisuelle Analysen mittels KI-getriebener Ansätze haben durch ihre enorme Leistungsfähigkeit in den letzten Jahren die Erschließung und Durchsuchbarkeit umfangreicher Datenbestände ermöglicht. Ein Beispiel hierfür ist das Audio Mining System des Fraunhofer IAIS, das bereits seit mehreren Jahren zur Erschließung der Datenbestände in der ARD oder von Zeitzeugeninterviews im Archiv „Deutsches Gedächtnis“ der Fernuniversität in Hagen angewendet wird.
Trotz der enormen Leistungsfähigkeit von Werkzeugen, wie Audio Mining, drängen sich von Nutzer*innenseite neue Anforderungen und Wünsche an Suchmodalitäten auf. So muss beispielsweise aktuell, um ein Zitat zu finden, der genaue Wortlaut weitestgehend bekannt sein, damit in den Transkripten der automatischen Spracherkennung gesucht und direkt zu der Zeitmarke in einem Video navigiert werden kann. Ist die Suchanfrage jedoch weniger präzise, wie zum Beispiel „Finde positive / negative Aussagen zum Thema Y“, sind komplexere Suchmodalitäten notwendig. Noch größer ist die Herausforderung, wenn die Suchanfragen Aspekte beinhalten, die nicht allein auf Basis des Transkripts beantwortet werden können. Dies können etwa Emotionen sein, die sich eher durch Gesichtsausdrücke oder eine bestimmte Stimmlage äußern. Eine Suchanfrage der Art „Aussagen von Person X zum Thema Y bei denen X verärgert oder traurig war“ sind bisher nur durch aufwändige manuelle Recherche in den Datenbeständen mit Sichtung vieler einzelner Videos möglich.
Zeitzeugeninterviews zur Erschließung von audiovisuellem Kulturgut
In dem Projekt Multimodales Mining von Zeitzeugeninterviews zur Erschließung von audiovisuellem Kulturgut werden in Kooperation des Fraunhofer IAIS mit der Stiftung Haus der Geschichte in Bonn solche komplexeren Suchmodalitäten für einen konkreten Anwendungsfall untersucht: die Erschließung von Zeitzeugeninterviews.
Durch die Erzählungen von Zeitzeuginnen und Zeitzeugen werden kleine und große Ereignisse in der Geschichte lebendig und nahbar. Das Medium der audiovisuellen Zeitzeugeninterviews ermöglicht, diese individuellen und multiperspektivischen Erzählungen immer wieder erlebbar zu machen und für jede*n zur Verfügung zu stellen. Auf www.zeitzeugen-portal.de sind bereits über 8.000 Clips aus etwa 1.000 Zeitzeugeninterviews zur deutschen Geschichte zu finden – ein großer Datenbestand, der nicht nur spannende Inhalte bietet, sondern auch durch emotional behaftete Geschichten die Betrachterin und den Betrachter Erlebtes mitfühlen lassen. Ein Beispiel ist unser Zeitzeuge Volker Schröder, der im Jahr 1968 an Studentenprotesten in West-Berlin teilnahm. Im Zeitzeugeninterview berichtet er ergriffen von einer Situation, in der er von einem Wasserwerfer der Polizei erfasst wurde.
Die automatisierte Erkennung soll uns dabei unterstützen, nicht nur in den Blick zu nehmen, was erzählt wird, sondern auch wie es erzählt wird. Emotionen stellen einen wichtigen Faktor im Erinnerungsprozess dar, sodass die automatisierte Analyse großer Datenmengen uns dabei helfen kann, besser zu verstehen, welche Rolle Emotionen beim historischen Erinnern spielen.
Multimodales Mining
Das Ziel des Projekts ist die Entwicklung von Prototypen für die multimodale Erkennung wahrgenommener Emotionen und für Sentiment-Analysen, die mittelfristig als Erweiterung der Suchmodalitäten für Audio Mining dienen und mit den bestehenden Analyse-Algorithmen in komplexen Suchanfragen kombiniert werden sollen.
Die Formulierung „Erkennung wahrgenommener Emotionen“ soll hierbei hervorheben, wie das System trainiert wird und was das System wirklich leisten kann. Anders als der Begriff „Emotionserkennung“ suggeriert, zielt unser System nicht darauf ab, wirklich zu erkennen, was eine Person gefühlt hat, sondern was andere Menschen an Emotionen erkennen, wenn sie sich das Video der Person anschauen (menschliche Dekodierungskompetenz). Das System kann Menschen somit nicht „in den Kopf schauen“, sondern versucht lediglich die Dekodierungskompetenz von Menschen zu reproduzieren. Diese feine Unterscheidung ist aus unserer Sicht wichtig, um essenzielle ethische und rechtliche Fragen präzise und sachkundig ausführen zu können.
Die multimodale Erkennung soll hierbei gleichzeitig den Video-Stream (Folge von Bildern), den Audio-Stream und das Transkript (basierend auf der automatischen Spracherkennung) kombinieren, um eine möglichst präzise Erkennung zu ermöglichen.
Herausforderungen in der angewandten Forschung
Sentiment-Analyse und multimodale Emotionserkennung sind in der Forschung seit vielen Jahren ein aktives Forschungsfeld mit stetig wachsendem Forschungsinteresse. Bei dem Transfer von Forschungsergebnissen in die Anwendung für Daten aus der realen Welt treten jedoch diverse Herausforderungen auf.
Wie bei vielen KI-basierten Ansätzen sind geeignete repräsentative Trainingsdaten in adäquatem Umfang eine der wesentlichen Herausforderungen. Viele, insbesondere ältere Datensätze aus der Forschung, beinhalten geschauspielerte, oft stark überzeichnete Emotionen, die nicht annähernd die subtil geäußerten Emotionen in Zeitzeugeninterviews widerspiegeln. Datensätze mit realen Aufzeichnungen hingegen zeigen oft ein sehr starkes Ungleichgewicht für bestimmte Emotionsklassen, die oft infolgedessen nur schlecht erlernt werden können.
Darüber hinaus sind die meisten Datensätze in englischer Sprache. Für gesichtsbasierte Emotionserkennung ist dies weitestgehend unerheblich – jedoch nicht für die Modalitäten Audio und Text. Als vielversprechende Lösungsansätze in der angewandten Forschung haben sich hier der Einsatz von vortrainierten Modellen und die anschließende Adaption auf repräsentativen Daten als vielversprechend erwiesen. Auch die Kombination unterschiedlicher Datensätze scheint für eine robuste Anwendbarkeit in realen Anwendungen vielversprechend zu sein.
Eine weitere wesentliche Herausforderung stellt die menschliche Wahrnehmung von Emotionen und Sentiments selbst dar. Für unsere Analysen haben wir von 147 Zeitzeugen insgesamt zehn Stunden an Interviews zusammengestellt und anhand von Sprechpausen segmentiert. Insgesamt wurden die resultierenden 2700 Segmente jeweils von drei unterschiedlichen Personen hinsichtlich Sentiments und Emotionsklassen nach den, in der automatischen Emotionserkennung typischen sechs Emotionsklassen nach Paul Ekman annotiert: Freude, Trauer, Ärger, Überraschung, Verachtung/Ekel, Angst. Die Annotierenden konnten hierbei für jede Emotionsklasse einen Score von 0 (neutral) bis 3 (stark) vergeben und für Sentiments von -3 (sehr negativ) bis 3 (sehr positiv). Eine Spearman-Korrelationsanalyse zwischen den Annotierenden für jede der Klassen zeichnet ein ernüchterndes Bild. Für Sentiments liegt die Korrelation bei ca. 0,63. Für die Emotionsklasse liegt der Wert bei 0,55, für Trauer sogar nur noch bei 0,47. Für diese Klassen liegt somit offensichtlich bei den Annotierenden recht häufig ein heterogenes Verständnis des Meinungspolarität beziehungsweise Wahrnehmung der Emotionen vor.
Die (verbleibenden) Annotationen der verbleibenden Emotionsklassen haben alle eine Korrelation von unter 0,4, wobei die Emotionsklasse „Überraschung“ mit einer Korrelation von lediglich 0,2 die geringste Korrelation hat. Bei diesen Klassen hatten die Annotierenden sehr häufig eine unterschiedliche Wahrnehmung der gezeigten Emotionen.
Wenn sich selbst bei Menschen die Wahrnehmung beziehungsweise Interpretation von Emotionen und des Sentiments derart stark unterscheiden, ist davon auszugehen, dass ein KI-basiertes System für solche Daten kaum in der Lage sein wird, eine präzise Erkennung durchzuführen. Die weiteren Arbeiten im laufenden Forschungsprojekt sollen zeigen, ob und wie diese Limitationen bewältigt werden können.
Fazit
KI-basierte Analysen für audiovisuelle Daten können große Datenbestände und Archive für Nutzer*innen unterschiedlichster Fachrichtungen durchsuchbar machen. Der Einsatz von KI-basierter Audioverarbeitung erlaubt bereits die Suche nach Zitaten und Stellen in Videos mit bestimmten Schlüsselworten. Für detailliertere Suchanfragen, die über den gesprochenen Text hinausgehen, sind komplexere, multimodale Analysealgorithmen notwendig. Diese unterliegen in der anwendungsorientierten Forschung oft wesentlichen Herausforderungen und Limitationen und bleiben somit ein offenes, spannende Gebiet der anwendungsorientierten Forschung.