{"id":15609,"date":"2024-10-16T06:27:39","date_gmt":"2024-10-16T06:27:39","guid":{"rendered":"https:\/\/lamarr-institute.org\/?post_type=blog&#038;p=15609"},"modified":"2025-11-12T14:53:11","modified_gmt":"2025-11-12T14:53:11","slug":"audio-mining-llm-medienarchive","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/audio-mining-llm-medienarchive\/","title":{"rendered":"Wie Audio Mining, Generative KI und LLMs die Suche in Medienarchiven revolutionieren"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">KI-gest\u00fctzte L\u00f6sungen f\u00fcr Medienarchive<\/h2>\n\n\n\n<p>In der schnell wachsenden digitalen Landschaft enthalten Medienarchive enorme Mengen an Audio- und Videodaten \u2013 beispielsweise aus Radio- und TV-Sendungen \u2013 die fortschrittliche Tools f\u00fcr eine effiziente Suche und den Abruf von Inhalten erfordern. Das Fraunhofer IAIS Audio Mining System erm\u00f6glicht schnelle und effiziente Suchanfragen nach gesprochenen Inhalten und spezifischen Sprechern. Dabei kommen verschiedene KI-basierte Technologien zum Einsatz: automatische Sprecher-Diarisierung (Segmentierung einer Datei in verschiedene Sprecherabschnitte), Sprechererkennung (Identifizierung bekannter Sprecher) und <a href=\"https:\/\/lamarr-institute.org\/de\/blog\/automatische-spracherkennung-entwicklung\/\">automatische Spracherkennung (ASR)<\/a>, d. h. die Transkription von gesprochenen Inhalten.<\/p>\n\n\n\n<p>Diese Technologien bieten insbesondere Journalist*innen, die schnell Archive durchsuchen m\u00fcssen, um Zitate aus fr\u00fcheren Sendungen zu finden. Diese Technologien bieten insbesondere Journalist*innen gro\u00dfe Vorteile, die schnell Archive durchsuchen m\u00fcssen, um Zitate aus vergangenen Sendungen zu finden. Zum Beispiel kann ein Journalist gezielt nach dem genauen Moment suchen, in dem ein*e Politiker*in zu einem bestimmten Thema gesprochen hat, ohne stundenlanges Videomaterial manuell durchsuchen zu m\u00fcssen. Allerdings sto\u00dfen schl\u00fcsselwortbasierte Suchmethoden an ihre Grenzen, wenn es darum geht, allgemeine Themen oder semantisch verwandte Inhalte zu finden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Die Archivsuche mit Generativer KI revolutionieren<\/h2>\n\n\n\n<p>Der Aufstieg der Generativen KI, insbesondere durch Tools wie ChatGPT, hat unsere Interaktion mit Technologie grundlegend ver\u00e4ndert. Diese gro\u00dfen Sprachmodelle (LLMs) erm\u00f6glichen nat\u00fcrliche Sprachabfragen und bieten eine intuitive Benutzeroberfl\u00e4che, um durch gro\u00dfe Datenmengen zu suchen. Das Fraunhofer IAIS hat dies erkannt und einen Prototyp entwickelt, der generative KI mit seinem Medienarchiv-Suchsystem integriert. Dadurch entstand ein fortschrittliches Tool, das \u00fcber einfache Stichwortsuchen hinausgeht.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"627\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Audiomining-screenshot_de_en-1024x627.png\" alt=\"Fraunhofer IAIS Audio Mining System\" class=\"wp-image-15599\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Audiomining-screenshot_de_en-1024x627.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Audiomining-screenshot_de_en-300x184.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Audiomining-screenshot_de_en-768x471.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Audiomining-screenshot_de_en.png 1459w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Fraunhofer IAIS<br>Abb. 1: Das Fraunhofer IAIS Audio Mining System mit Sprechererkennung und Transkription.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Wie der Audio Mining LLM-Prototyp funktioniert: ASR-, LLM- und RAG-Technologien<\/h2>\n\n\n\n<p>Der Audio Mining LLM-Prototyp kombiniert die KI-generierten Metadaten des Fraunhofer IAIS Audio Mining Systems (einschlie\u00dflich automatischer Segmentierung von Mediendateien, Sprechererkennung und ASR-Transkription) mit einer semantischen Suchfunktion, die auf Retrieval-Augmented Generation (RAG) basiert. Das System k\u00f6nnen Nutzende detaillierte Fragen stellen, wie zum Beispiel \u201eGibt es Neuigkeiten im D\u00f6nerstreit?\u201c. Das System ruft dann die relevantesten Segmente basierend auf semantischer \u00c4hnlichkeit ab und ordnet diese mithilfe von Sentence Embeddings nach der besten \u00dcbereinstimmung absteigend an (f\u00fcr einen detaillierten Einblick, wie Embeddings funktionieren, empfiehlt sich der Blogbeitrag \u201e<a href=\"https:\/\/lamarr-institute.org\/de\/blog\/kontextabhaengige-einbettungsvektoren\/\">Die Bedeutung von Worten durch Vektoren<\/a>\u201c).<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"578\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Doenerstreit-1024x578.png\" alt=\"Der Audio Mining LLM-Prototyp beantwortet die Frage \u201eGibt es Neuigkeiten im D\u00f6nerstreit?\u201c. \" class=\"wp-image-15604\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Doenerstreit-1024x578.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Doenerstreit-300x169.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Doenerstreit-768x433.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Doenerstreit-1536x867.png 1536w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Doenerstreit.png 1659w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Fraunhofer IAIS<br>Abb. 2: Der Audio Mining LLM-Prototyp beantwortet die Frage \u201eGibt es Neuigkeiten im D\u00f6nerstreit?\u201c. Er gibt eine textuelle Antwort und listet die f\u00fcnf relevantesten Segmente basierend auf semantischer \u00c4hnlichkeit auf.<\/figcaption><\/figure>\n\n\n\n<p>Das System nutzt ein gro\u00dfes Sprachmodell (LLM), um Antworten auf Basis relevanter Inhalte aus dem Archiv zu formulieren. Es minimiert das Risiko von \u201eHalluzinationen\u201c \u2013 Situationen, in denen bei dem gro\u00dfe Sprachmodelle falsche Informationen erzeugen \u2013, indem es sicherstellt, dass alle Antworten auf verifizierbaren Daten beruhen. Dies macht es zu einer idealen L\u00f6sung f\u00fcr zuverl\u00e4ssige, faktenbasierte Medienarchiv-Suchen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Anwendungen des Audio Mining LLM-Prototyps in der Medienbranche<\/h2>\n\n\n\n<p>Traditionell ist es relativ einfach, \u00fcber Stichwortsuchen herauszufinden, ob jemand ein bestimmtes Thema erw\u00e4hnt hat, wie zum Beispiel alle F\u00e4lle zu finden, in denen Kamala Harris negative Kommentare \u00fcber Elektroautos abgegeben hat. Der Audio Mining LLM-Prototyp bietet jedoch ein erhebliches Potenzial f\u00fcr verschiedene Anwendungen, insbesondere in der Medienbranche. So k\u00f6nnen investigative Journalist*innen das System nutzen, um schnell spezifischen Aussagen oder Meinungen \u00f6ffentlicher Personen zu finden, etwa wann Kamala Harris negativ \u00fcber Elektroautos gesprochen hat \u2013 etwas, das \u00fcber eine einfache Stichwortsuche hinausgeht.<\/p>\n\n\n\n<p>Das System des Audio Mining LLM-Prototyp transkribiert jedes gesprochene Wort, sodass selbst subtile Meinungen und Details erfasst werden k\u00f6nnen, ohne sich auf manuell annotierte Metadaten verlassen zu m\u00fcssen. Der RAG-Ansatz stellt sicher, dass relevante Segmente aus dem Archiv abgerufen werden, wodurch Einblicke gewonnen werden, die traditionelle Suchmethoden m\u00f6glicherweise \u00fcbersehen w\u00fcrden.<\/p>\n\n\n\n<p>Eine weitere Anwendung liegt in \u00f6ffentlichen Video-on-Demand-Plattformen, auf denen Nutzer*innen von einem System profitieren k\u00f6nnten, das nicht nur nach Titeln oder Genres sucht, sondern auch personalisierte Empfehlungen basierend auf individuellen Vorlieben oder spezifischen Fragen bietet. Dies k\u00f6nnte das Benutzererlebnis erheblich verbessern und neue M\u00f6glichkeiten er\u00f6ffnen, mit Medienarchiven zu interagieren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Herausforderungen und Grenzen des aktuellen Prototyps<\/h2>\n\n\n\n<p>Obwohl der Audio Mining LLM-Prototyp vielversprechende Ergebnisse zeigt, bleibt er ein Prototyp mit Verbesserungspotenzial. Eine der gr\u00f6\u00dften Herausforderungen liegt in der Segmentierung von Video- und Audiodaten, bei der kurze, irrelevante Segmente zur\u00fcckgegeben werden k\u00f6nnen, was die N\u00fctzlichkeit der Suchergebnisse verringert. K\u00fcnftige Verbesserungen in <a href=\"https:\/\/www.anthropic.com\/news\/contextual-retrieval\" target=\"_blank\" rel=\"noopener\">Contextual Retrieval-Systeme<\/a>n k\u00f6nnten diese Einschr\u00e4nkung beheben und die Qualit\u00e4t und Relevanz der Segmente erh\u00f6hen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"620\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Lamarr_DE_1-1024x620.png\" alt=\"Der Audio Mining LLM-Prototyp liefert teilweise irrelevante Segmente zur gestellten Frage.\" class=\"wp-image-15606\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Lamarr_DE_1-1024x620.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Lamarr_DE_1-300x182.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Lamarr_DE_1-768x465.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Lamarr_DE_1-1536x930.png 1536w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Lamarr_DE_1.png 1575w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Fraunhofer IAIS<br>Abb. 3: Der Audio Mining LLM-Prototyp liefert teilweise irrelevante Segmente zur gestellten Frage, wie zum Beispiel die ersten Segmente in diesem Screenshot.<\/figcaption><\/figure>\n\n\n\n<p>Eine weitere aktuelle Einschr\u00e4nkung ist die Unf\u00e4higkeit des Systems, quantitative Analysen durchzuf\u00fchren. Der Prototyp kann beispielsweise nicht z\u00e4hlen, wie oft ein bestimmtes Thema von einer Person erw\u00e4hnt wurde, oder eine umfassende Liste aller Erw\u00e4hnungen bereitstellen. Zuk\u00fcnftige Updates k\u00f6nnten das RAG-System feinjustieren, um komplexere analytische Aufgaben zu bew\u00e4ltigen, einschlie\u00dflich der Z\u00e4hlung von Vorkommnissen und der Erstellung von Listen basierend auf dem gesamten Archiv.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Zuk\u00fcnftige Entwicklungen: Erweiterung der Audio-Mining-F\u00e4higkeiten mit LLMs<\/h2>\n\n\n\n<p>Nach seinem erfolgreichen Deb\u00fct als Proof of Concept auf der International Broadcasting Convention 2024 (IBC) hat der Audio Mining LLM-Prototyp positives Feedback aus der Medienbranche erhalten. Zuk\u00fcnftige Entwicklungen werden sich auf ma\u00dfgeschneiderte L\u00f6sungen f\u00fcr Anwendungsf\u00e4lle wie quantitative Medienanalyse, Nachrichtenverifizierung und verbesserte Suchschnittstellen f\u00fcr Video-on-Demand-Dienste konzentrieren.<\/p>\n\n\n\n<p>Im Fraunhofer IAIS erforschen wir kontinuierlich, wie RAG-Technologien an die spezifischen Bed\u00fcrfnisse der Brachen angepasst werden k\u00f6nnen, um die Leistungsf\u00e4higkeit und Benutzerfreundlichkeit von Medienarchiven f\u00fcr Journalist*innen, Forschende und die \u00d6ffentlichkeit zu verbessern. Mehrere RAG-bezogene Projekte sollen bis Ende des Jahres abgeschlossen und die Ergebnisse im ML-Blog des Lamarr-Instituts nach und nach ver\u00f6ffentlicht werden. Bleiben Sie also dran!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Erfahren Sie, wie das Fraunhofer IAIS mit Audio Mining, generativer KI und gro\u00dfen Sprachmodellen die Suche in Medienarchiven revolutioniert und Journalist*innen und Forschenden einen intelligenteren und effizienteren Zugang zu relevanten Inhalten erm\u00f6glicht.<\/p>\n","protected":false},"author":22,"featured_media":15610,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,546,1418],"blog-tag":[1445,1448,1514,1551,1559,1588,1598],"class_list":["post-15609","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-anwendung","blog-category-sprachtechnologien","blog-tag-audiomining-de","blog-tag-automatische-spracherkennung-asr","blog-tag-generative-ki","blog-tag-large-language-models-llms-de","blog-tag-nlp-de","blog-tag-retrieval-networks-de","blog-tag-sprachmodelle"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/15609","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/22"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/15609\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/15610"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=15609"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=15609"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=15609"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}