{"id":4242,"date":"2022-06-29T03:00:29","date_gmt":"2022-06-29T03:00:29","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/faktensichere-textgenerierung\/"},"modified":"2025-11-12T14:52:02","modified_gmt":"2025-11-12T14:52:02","slug":"faktensichere-textgenerierung","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/faktensichere-textgenerierung\/","title":{"rendered":"Faktensichere Textgenerierung mit Retrieval-Networks"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Ist K\u00fcnstliche Intelligenz (KI) eine \u201epost-theoretische Wissenschaft\u201c?<\/span><\/h2>\n\n\n\n<p>In einem viel beachteten <a href=\"https:\/\/www.theguardian.com\/technology\/2022\/jan\/09\/are-we-witnessing-the-dawn-of-post-theory-science\" target=\"_blank\" rel=\"noopener\">Aufsatz<\/a> stellt Laura Spinney die Frage, ob wir uns mittlerweile einer \u201epost-theoretische[n] Wissenschaft\u201c n\u00e4hern. Die Modelle von Facebook sagen die Vorlieben der Nutzenden besser voraus als viele psychologisch fundierte Marktforschungsprojekte. Und <a href=\"https:\/\/alphafold.ebi.ac.uk\/\" target=\"_blank\" rel=\"noopener\">AlphaFold<\/a>, ein von DeepMind entwickeltes Neuronales Netz, hat aus den sequenzierten Aminos\u00e4uren eines Molek\u00fcls die genauesten Vorhersagen seiner r\u00e4umlichen Proteinstrukturen erstellt. Im Mai 2020 stellte OpenAI das <a href=\"https:\/\/towardsdatascience.com\/gpt-3-a-complete-overview-190232eb25fd\" target=\"_blank\" rel=\"noopener\">Sprachmodell GPT-3<\/a> vor, das mit 175 Milliarden Parametern den Rekord f\u00fcr das gr\u00f6\u00dfte bis dahin erstellte neuronale Netz hielt. In diesem Jahr wurde nun eine \u201eGeneralist KI\u201c <a href=\"https:\/\/www.heise.de\/news\/DeepMind-stellt-neuen-KI-Agenten-vor-den-Multitasker-und-Generalisten-Gato-7090323.html\" target=\"_blank\" rel=\"noopener\">Gato<\/a> vorgestellt, die nicht nur in der Lage ist, sich mit Menschen in einem Chat zu unterhalten, sondern auch Computerspiele beherrscht und einen Roboterarm steuern kann, um mit Bausteinen nach Anweisung T\u00fcrmchen zu bauen. Keines dieser Modelle offenbart jedoch, wie es zu seinem Ergebnis kommt. Heute, so Spinney, haben sich oft so viele Daten angesammelt, und Computer sind bereits so viel besser als Menschen darin, komplizierte Korrelationen zu erkennen, dass unsere Theorien in Form von Formeln und Gleichungen die Realit\u00e4t zu stark vereinfachen w\u00fcrden.<\/p>\n\n\n\n<p>Vor diesem Hintergrund hat sich in der KI ein neues Forschungsthema herausgebildet, das das offensichtliche KI-Defizit der Intransparenz systematisch angeht (Weiteres zum Thema finden Sie in unseren Beitr\u00e4gen zu <a href=\"https:\/\/lamarr-institute.org\/de\/ki-fairness\/\" target=\"_blank\" rel=\"noreferrer noopener\">KI-Fairness<\/a> und <a href=\"https:\/\/lamarr-institute.org\/de\/erklaerbares-maschinelles-lernen\/\" target=\"_blank\" rel=\"noreferrer noopener\">erkl\u00e4rbaren ML<\/a>). Ein neuer spezieller Ansatz zur Erh\u00f6hung der Transparenz von vollautomatisch geschriebenen Texten wird entwickelt in Analogie zum bekannten menschlichen Vorgehen in einem wissenschaftlichen Diskurs: Behauptungen werden durch Zitate von Arbeiten anderer Wissenschaftler*innen belegt. Die Kombination von Sprachmodellen mit Suchmaschinen er\u00f6ffnet einem KI-System die M\u00f6glichkeit, auch generierte Texte auf die gleiche Weise zu belegen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">\u201eVerstehen\u201c Sprachmodelle, was sie gelernt haben?<\/span><\/h2>\n\n\n\n<p>Im Sommer 2021 kam <a href=\"https:\/\/arxiv.org\/abs\/2105.02274\" target=\"_blank\" rel=\"noopener\">Donald Metzler<\/a> zu folgender Einsch\u00e4tzung:<\/p>\n\n\n\n<p>\u201eGro\u00dfe vortrainierte Sprachmodelle sind in der Lage, direkt Prosa zu erzeugen, die einem Informationsbedarf entspricht, aber sie [\u2026] haben kein wirkliches Verst\u00e4ndnis der Welt [\u2026] und sind vor allem nicht in der Lage, ihre \u00c4u\u00dferungen zu rechtfertigen.\u201d<\/p>\n\n\n\n<p>Ein gro\u00dfer Nachteil ist es also, dass KI-Modelle keine Begr\u00fcndungen oder Erkl\u00e4rungen f\u00fcr die von ihnen produzierten Texte liefern die durch Interaktion der oft Milliarden von Parametern erzeugt werden. Diese Parameter berechnen Korrelationen zwischen den numerisch codierten sprachlichen Begriffen (n\u00e4heres zu dieser Technik finden Sie <a href=\"https:\/\/machinelearning-blog.de\/grundlagen\/kontextabhaengige-einbettungsvektoren\/\" target=\"_blank\" rel=\"noopener\">hier<\/a>). Es entsteht dabei keine inhaltliche Interpretation. Um nicht nur sinnvoll klingende, sondern auch sachlich korrekte Texte zu generieren, braucht es mehr als nur das reine Sprachmodell. Deshalb arbeiten Expert*innen aktuell an der Synthese von Sprachmodellen und Suchmaschinen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Sprachmodelle k\u00f6nnen relevante Texte finden und auswerten<\/span><\/h2>\n\n\n\n<p>DeepMind hat das <a href=\"https:\/\/arxiv.org\/abs\/2112.04426\" target=\"_blank\" rel=\"noopener\">Modell Retro<\/a> vorgestellt, welches zu dem vorgegeben Starttext und den bisher erzeugten Ausgabetexten sukzessive Suchen in einer Datenbank von 5000 Milliarden Worten durchf\u00fchrt. Das ist in etwa <a href=\"https:\/\/blogs.loc.gov\/thesignal\/2012\/04\/a-library-of-congress-worth-of-data-its-all-in-how-you-define-it\/\" target=\"_blank\" rel=\"noopener\">so viel Text, wie die komplette Kongressbibliothek der USA umfasst<\/a>.<\/p>\n\n\n\n<p>Retro arbeitet anders als die meisten Suchmaschinen des Internets. Es wird keine Suche nach Schl\u00fcsselworten durchgef\u00fchrt, sondern eine Suche \u00fcber den Vergleich von numerischen Vektoren, die die Bedeutung einer Liste von Worten kodieren. Dadurch kann das Modell auch passende Texte mit anderen Formulierungen finden und so treffgenauere Suchergebnisse erzielen.<\/p>\n\n\n\n<p>Diese Suchergebnisse werden von dem Modell zusammen mit dem bisher generierten Text analysiert. Retro umfasst nur 7 Milliarden Parameter und ist daher wesentlich kosteng\u00fcnstiger zu trainieren als GPT-3. Dennoch erreicht Retro bei den meisten Benchmarks Spitzenleistungen.<\/p>\n\n\n\n<p>Retro hat also zwei entscheidende Vorteile: Einerseits kann Retro bei der Generierung von Texten auf eine viel gr\u00f6\u00dfere Menge an Informationen zur\u00fcckgreifen, ohne die Rechenkosten signifikant zu erh\u00f6hen. So ist es m\u00f6glich, bei der Erzeugung von Texten gezielt Informationen abzurufen, die zur Reduktion von Fehlern und Ungenauigkeiten genutzt werden k\u00f6nnen. Zum anderen kann die Informationsbasis auf dem neuesten Stand gehalten werden, da wie bei einer Web-Suchmaschine laufend neue und aktuelle Informationen hinzugef\u00fcgt werden k\u00f6nnen, ohne dass das Modell neu trainiert werden muss.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large wp-duotone-midnight\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/lamarr-blog-Darstellung-Why-was-the-Suez-Canal-blocked-in-March-2021-1-1024x610.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25433\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Fraunhofer IAIS mit Informationen aus Nakano et al. (2022) <br>Abbildung 1: Zu der Frage \u201eWhy was the Suez Canal blocked in March 2021?\u201c f\u00fchrt das WebGPT Modell eine Reihe von Anfragen an die Bing Suchmaschine durch. Aus der Frage und den zur\u00fcckgelieferten Antworten erzeugt WebGPT eine Antwort, welche die gefunden Textstellen auswertet. Zudem werden Hinweise auf die Dokumente eingef\u00fcgt, die als Beleg f\u00fcr die Aussagen dienen und sie erkl\u00e4ren.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Zitate belegen Fakten<\/h2>\n\n\n\n<p>Einen \u00e4hnlichen Ansatz verfolgt <a href=\"https:\/\/arxiv.org\/abs\/2112.09332\" target=\"_blank\" rel=\"noreferrer noopener\">WebGPT von OpenAI<\/a>. Das System soll das Vorgehen einer Person nachbilden, die eine Websuche zur Beantwortung einer Frage durchf\u00fchrt. Die Entwickler*innen gehen von dem vortrainierten GPT-3 Modell aus und passen es so an, dass es der Suchmaschine Bing Auftr\u00e4ge erteilen kann, zum Beispiel eine Websuche zu einer Anfrage durchzuf\u00fchren. Die Eingabe besteht dabei aus der Frage, den bisher zusammengestellten Informationen, der aktuell gefundenen Webseite sowie einigen Zusatzinformationen.<\/p>\n\n\n\n<p>F\u00fcr diese Aufgabe wird nun GPT-3 durch weiteres Training so angepasst, dass es einerseits die Suchschritte von menschlichen Instruktoren m\u00f6glichst gut imitiert und zum anderen die Wahrscheinlichkeit optimiert, dass die gefundenen Antworten von den Instruktoren als gut bewertet werden. In der Anwendungsphase wird dann zu jeder Anfrage eine Reihe von solchen Suchsequenzen automatisch durchgef\u00fchrt und das beste Ergebnis selbstt\u00e4tig ausgew\u00e4hlt.<\/p>\n\n\n\n<p>Als Daten wurden Fragen und Antworten des <a href=\"https:\/\/arxiv.org\/abs\/1907.09190\" target=\"_blank\" rel=\"noreferrer noopener\">ELI5<\/a> (Explain Like I\u2019m Five) benchmarks verwendet. Es erfordert die Beantwortung von komplexen Fragen durch ausf\u00fchrliche Texte und Erkl\u00e4rungen. Vergleicht man die Antworten des Modells mit der am h\u00f6chsten bewerteten Antwort aus dem ELI5-Testdatensatz, so werden die Modellantworten in 69% der F\u00e4lle von menschlichen Lesern bevorzugt.<\/p>\n\n\n\n<p>In Abbildung 1 ist eine von WebGPT zur Frage \u201e<a href=\"https:\/\/openai.com\/blog\/webgpt\/\" target=\"_blank\" rel=\"noreferrer noopener\">Why was the Suez Canal blocked in March 2021<\/a>?\u201c erzeugte Antwort wiedergegeben.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/lamarr-blog-aktensichere-textgenerierung-1-1024x519.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25436\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ipopba\/stock.adobe.com\n<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Vision: der digitale Textassistent<\/h2>\n\n\n\n<p>Insgesamt er\u00f6ffnen die beschriebenen Modelle eine Synthese der schon lange erfolgreichen Suchmaschinen und der modernen Sprachmodelle. Jacob Hilton, der Entwickler von WebGPT, verfolgt die Vision eines \u201e<a href=\"https:\/\/www.alignmentforum.org\/posts\/jWkqACmDes6SoAiyE\/truthful-lms-as-a-warm-up-for-aligned-agi\" target=\"_blank\" rel=\"noreferrer noopener\">wahrheitsgetreuen Text-Assistenten<\/a>\u201c, der Nutzenden Antworten zu ihren Fragen auf dem Niveau menschlicher Expert*innen liefert. Der Verweis auf externe Quellen l\u00f6st jedoch nicht alle Probleme. Was macht ein Internetdokument zuverl\u00e4ssig? Welche Aussagen in einem Text m\u00fcssen belegt werden, und welche sind selbstverst\u00e4ndliches \u201eAllgemeinwissen\u201c. Hier stecken die aktuellen Sprachmodelle noch in den Kinderschuhen, aber es gibt M\u00f6glichkeiten, sie zu verbessern. Im Internet gibt es zum Beispiel bereits ein \u201e<a href=\"https:\/\/www.mdpi.com\/2504-4990\/3\/3\/34\" target=\"_blank\" rel=\"noreferrer noopener\">Web of Trust<\/a>\u201c, welches die Zuverl\u00e4ssigkeit von Webseiten, unter anderem aus Nutzer*innenbewertungen ableitet.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Sprachmodelle mit Milliarden von Parametern k\u00f6nnen sinnvoll Fragen beantworten und scheinen durch \u201eLesen\u201c Text- und Weltverst\u00e4ndnis aufzubauen. Ihre Komplexit\u00e4t ist undurchschaubar, aber sie k\u00f6nnen lernen, sich zu erkl\u00e4ren.<\/p>\n","protected":false},"author":9,"featured_media":4033,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,390,1418],"blog-tag":[1516,1551,1588,1598],"class_list":["post-4242","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-grundlagen","blog-category-sprachtechnologien","blog-tag-gpt-de","blog-tag-large-language-models-llms-de","blog-tag-retrieval-networks-de","blog-tag-sprachmodelle"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4242","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4242\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4033"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4242"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4242"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4242"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}