{"id":4757,"date":"2022-08-10T04:02:08","date_gmt":"2022-08-10T04:02:08","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/foundation-modelle\/"},"modified":"2025-11-12T14:54:22","modified_gmt":"2025-11-12T14:54:22","slug":"foundation-modelle","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/foundation-modelle\/","title":{"rendered":"Mit Sprachmodellen stimmige Texte erzeugen: Foundation-Modelle als Grundlage von KI-Systemen"},"content":{"rendered":"\n<p>Sprachtechnologien unterst\u00fctzen bereits heute viele Menschen und Unternehmen dabei, ihren Alltag effizienter zu gestalten. Durch den Einsatz von Maschinellem Lernen (ML) ist die maschinelle Verarbeitung nat\u00fcrlicher Sprache mittlerweile auf einem sehr hohen Niveau. Gro\u00dfe Sprachmodelle \u2013 auch Foundation-Modelle genannt &#8211; entwickeln sich schnell und k\u00f6nnen bereits qualitativ anspruchsvolle Aufgaben wie die Erstellung von Computer-Programmen und Zeitungsberichten automatisiert durchf\u00fchren und unterschiedliche Medien gleichzeitig betrachten. In diesem Beitrag werfen wir einen Blick hinter die Kulissen der Sprachtechnologien, welche auch als Beitr\u00e4ge zur K\u00fcnstlichen Intelligenz (KI) betrachtet werden k\u00f6nnen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Foundation-Modelle als Grundlage von KI-Systemen<\/span><\/h2>\n\n\n\n<p>Beginnt ein Satz mit den Worten \u201eDer Hund\u201c, so k\u00f6nnen auf der n\u00e4chsten Wortposition viele unterschiedliche Worte auftauchen, zum Beispiel \u201elief\u201c oder \u201ebellte\u201c. Andererseits sind viele andere Worte dort aus syntaktischen oder inhaltlichen Gr\u00fcnden nicht m\u00f6glich, etwa \u201egr\u00fcn\u201c oder \u201egern\u201c. Daher hat man sogenannte Sprachmodelle definiert, die die Wahrscheinlichkeit f\u00fcr die m\u00f6glichen n\u00e4chsten Worte berechnen sollen, und die als eine bedingte Wahrscheinlichkeit formalisiert werden k\u00f6nnen: p(v<sub>3<\/sub> | v<sub>1<\/sub> = Der, v<sub>2<\/sub> = Hund). In unserem Falle sollten die Worte \u201elief\u201c und \u201ebellte\u201c eine hohe bedingte Wahrscheinlichkeit erhalten und \u201egr\u00fcn\u201c sowie \u201egern\u201c die Wahrscheinlichkeit 0,0.<\/p>\n\n\n\n<p><em>Wie kann man nun die bedingten Wahrscheinlichkeiten mit einem Modell erfassen?<\/em> Es hat sich gezeigt, dass tiefe neuronale Netze mit Assoziationsmodulen besonders geeignet sind, bedingte Wahrscheinlichkeiten vorherzusagen. Hierbei werden die Worte der Sprache durch eine begrenzte Anzahl von Token dargestellt, sodass h\u00e4ufige Worte eigene Token sind und seltenere Worte aus Token zusammengesetzt werden. Jedes Token wird durch einen kontextabh\u00e4ngigen Einbettungsvektor dargestellt, welcher die Bedeutung des Tokens repr\u00e4sentiert. Diese k\u00f6nnen durch die Ber\u00fccksichtigung der Nachbarworte zudem die Bedeutung von mehrdeutigen Worten wie zum Beispiel \u201eBank\u201c erkl\u00e4ren, die je nach Kontext ein Finanzinstitut oder eine Sitzgelegenheit sein kann. Der Algorithmus zur Berechnung solcher Einbettungen wurde in den Beitr\u00e4gen \u201e<a href=\"https:\/\/lamarr-institute.org\/de\/kontextabhaengige-einbettungsvektoren\/\" target=\"_blank\" rel=\"noreferrer noopener\">Die Bedeutung von Worten durch Vektoren erfassen<\/a>\u201c und \u201e<a href=\"https:\/\/lamarr-institute.org\/de\/bert\" target=\"_blank\" rel=\"noreferrer noopener\">BERT: Wie beschreiben Vektoren treffend den Sinngehalt von W\u00f6rtern<\/a>\u201c detailliert dargestellt.<\/p>\n\n\n\n<p>Ein Sprachmodell muss die Wahrscheinlichkeiten der Worte eines Satzes nacheinander erzeugen. Dies wird in der nachfolgenden Animation dargestellt. Das Modell erh\u00e4lt zu Beginn das Startsymbol (v<sub>1<\/sub> = BOS) als Eingabe. Anschlie\u00dfend wird der Algorithmus von BERT in mehreren Ebenen f\u00fcr die bisher bekannten Worte des Satzes durchgef\u00fchrt. Jede Ebene enth\u00e4lt eine Reihe paralleler Assoziationsmodule, welche jeweils einen neuen kontextsensitiven Einbettungsvektor f\u00fcr jedes Eingabe-Token erzeugt.<\/p>\n\n\n\n<figure class=\"wp-block-video\"><video height=\"674\" style=\"aspect-ratio: 1090 \/ 674;\" width=\"1090\" controls src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/GIF_2.mp4\"><\/video><figcaption class=\"wp-element-caption\">\u00a9 ML2R<br>Ein Sprachmodell muss die Wahrscheinlichkeiten der Worte eines Satzes nacheinander erzeugen. In diesem Beispiel erh\u00e4lt das Modell zu Beginn das Startsymbol (v<sub>1<\/sub>\u00a0= BOS). Daraufhin wird der BERT-Algorithmus in mehreren Ebenen f\u00fcr bisher bekannte Worte durchgef\u00fchrt, sodass jede Ebene eine Reihe paralleler Assoziationsmodule erzeugt.<\/figcaption><\/figure>\n\n\n\n<p>Aus dem am weitesten rechts positionierten Einbettungsvektor wird nun mithilfe eines logistischen Regressionsmodells ein Wahrscheinlichkeitsvektor prognostiziert, der f\u00fcr jedes m\u00f6gliche Token die Wahrscheinlichkeit absch\u00e4tzt, mit der dieses an der n\u00e4chsten Position erscheinen kann. Als n\u00e4chsten werden die Token (v<sub>1<\/sub> = BOS, v<sub>2 <\/sub>= Der) als Eingabe verwendet und eine Prognose f\u00fcr das dritte Token berechnet. Dies geht so weiter bis aus (v<sub>1<\/sub> = BOS, v<sub>2<\/sub> = Der, v<sub>3<\/sub> = Hund, v<sub>4<\/sub> = er#, v<sub>5<\/sub> = sp\u00e4hte, v<sub>6<\/sub> = die) das letzte Token prognostiziert wird. Jedes Mal werden dabei neue kontextsensitive Einbettungen f\u00fcr alle bisherigen Worte berechnet und es stehen zus\u00e4tzliche Informationen f\u00fcr das letzte Token zur Verf\u00fcgung. Das Modell wird mit Texten aus einem gro\u00dfen Trainingsdatensatz trainiert, sodass es dem beobachteten Token im Text eine m\u00f6glichst hohe Wahrscheinlichkeit zuordnet, wenn die vorherigen Token als Starttext eingegeben werden. Die Details dieser Modelle werden in dem Buch \u201e<a href=\"https:\/\/link.springer.com\/book\/10.1007\/978-3-658-30211-5\" target=\"_blank\" rel=\"noreferrer noopener\">K\u00fcnstliche Intelligenz \u2013 Was steckt hinter der Technologie der Zukunft?<\/a>&#8220; dargestellt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Mit dem Sprachmodell GPT-3 stimmige Texte generieren<\/h2>\n\n\n\n<p>Das <a href=\"https:\/\/arxiv.org\/abs\/2005.14165\" target=\"_blank\" rel=\"noreferrer noopener\">Modell GPT-3<\/a> kann Eingabetexte von maximal 2048 Token verarbeiten und ber\u00fccksichtigt damit einen sehr gro\u00dfen Kontext. Es hat 96 Ebenen mit jeweils 96 parallelen Assoziationsmodulen. Insgesamt hat es 175 Milliarden freie Parameter und kann dadurch sehr aussagekr\u00e4ftige kontextabh\u00e4ngige Einbettungen erzeugen. Es wurde auf einer Textsammlung aus B\u00fcchern, Wikipedia und Webseiten mit etwa 500 Milliarden Token trainiert. Das ist mehr als 100-mal so viel Text, wie ein Mensch w\u00e4hrend seines Lebens lesen k\u00f6nnte. Mit einem vorgegebenen Starttext kann das Sprachmodell weitgehend gesteuert werden. Durch ein oder mehrere Beispiele angewiesen, kann es einen Text f\u00fcr einen bestimmten Zweck, zum Beispiel \u00dcbersetzungen in eine andere Sprache oder Zusammenfassungen eines Dokuments, erzeugen (Few-shot Prompts).<\/p>\n\n\n\n<p>Erh\u00e4lt GPT-3 eine Eingabe, die der Anfang eines Zeitungsartikels sein k\u00f6nnte, so kann es \u201aNachrichtenartikel\u2018 mit vielen hundert W\u00f6rtern generieren, die von menschlichen Beitr\u00e4gen kaum zu unterscheiden sind. Generierte Texte enthalten nahezu keine syntaktischen Fehler und sind inhaltlich plausibel, obwohl die angegebenen Aussagen nicht immer korrekt sein m\u00fcssen. Die durchschnittliche menschliche Genauigkeit bei der Erkennung von Artikeln, die mit GPT-3 produziert wurden, lag bei rund 52 %. Was die Vermutung nahelegt, dass Menschen kaum in der Lage sind, synthetisch generierte Texte von menschlichen zu unterscheiden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Pr\u00fcfung durch umfangreiche Testsammlungen<\/h2>\n\n\n\n<p>Mittlerweile wurden weitere Modelle, zum Beispiel <a href=\"https:\/\/arxiv.org\/abs\/2112.11446\" target=\"_blank\" rel=\"noreferrer noopener\">Gopher<\/a> und <a href=\"https:\/\/arxiv.org\/abs\/2204.02311\" target=\"_blank\" rel=\"noreferrer noopener\">PaLM<\/a>, mit 280 bzw. 540 Milliarden Parametern und einer \u00e4hnlichen Architektur wie GPT-3 entwickelt. Beide Modelle \u00fcbertreffen GPT-3 in der Qualit\u00e4t der erzeugten Texte. Um die Leistungsf\u00e4higkeit der Modelle detailliert absch\u00e4tzen zu k\u00f6nnen, wurden sie mit einer <a href=\"https:\/\/github.com\/google\/BIG-bench\" target=\"_blank\" rel=\"noreferrer noopener\">Sammlung von mehr als 150 Benchmark-Tests<\/a> aus einer Vielzahl von Anwendungsbereichen \u2013 etwa Medizin, logisches Denken, Geschichte, usw. \u2013 \u00fcberpr\u00fcft. Die Modelle wurden nicht, wie zuvor bei BERT, f\u00fcr diese Aufgaben durch Finetuning trainiert, sondern durch Few-shot Prompts instruiert. Gopher war in der Lage, die Genauigkeit von GPT-3 in mehr als 82 % dieser Aufgaben zu verbessern. PaLM erreichte eine h\u00f6here Punktzahl als die durchschnittliche Punktzahl von Menschen, welche die gleichen Aufgaben l\u00f6sten. Eine Besonderheit von PaLM ist, dass es wesentlich besser logische Schl\u00fcsse ziehen kann als bisherige Modelle. Dies wird durch Prompts unterst\u00fctzt, die eine logische Schlusskette f\u00fcr ein Beispielproblem vorgeben. Hierdurch erh\u00e4lt das Modell eine Anleitung, wie das Problem durch eine Aufteilung in Teilschritte gel\u00f6st werden kann. Eine Beispielanfrage ist im folgenden Kasten zu sehen, wobei die Systemantwort gr\u00fcn gedruckt ist:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full wp-duotone-midnight\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Screenshot-2022-08-03-101706.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25418\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R<\/figcaption><\/figure>\n\n\n\n<p>Durch dieses though-chain-prompting konnte die F\u00e4higkeit des Modells zur Beantwortung logischer Fragen stark gesteigert werden. Es ist wichtig, dass f\u00fcr verschiedene logische Probleme immer die gleiche Beispielaufforderung verwendet werden kann. Nach diesem Muster ist das Modell sogar in der Lage, Witze zu erkl\u00e4ren.<\/p>\n\n\n\n<p>Allerdings haben diese Modelle auch Schw\u00e4chen. Da sie die in den Daten vorgefundenen Zusammenh\u00e4nge repr\u00e4sentieren, k\u00f6nnen sie auch Vorurteile \u00fcber bestimmte Bev\u00f6lkerungsgruppen reproduzieren. Zudem sind sie nicht immun gegen Fehlurteile und sachliche Fehler, die sie aus den Trainingsdaten rekonstruieren, oder aber einfach nur plausiblen assoziieren. Der Beitrag \u201e<a href=\"https:\/\/machinelearning-blog.de\/grundlagen\/faktensichere-textgenerierung\/\" target=\"_blank\" rel=\"noreferrer noopener\">Faktensichere Textgenerierung mit Retrieval Networks<\/a>\u201c beschreibt Techniken, wie man diese Probleme verringern kann.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Foundation-Modelle: Eine neue Grundlage f\u00fcr K\u00fcnstliche Intelligenz<\/h2>\n\n\n\n<p>Mittlerweile gibt es Modelle, die mit der gleichen Technik (parallele Assoziationsmodule, Attention) gleichzeitig <a href=\"https:\/\/openai.com\/dall-e-2\/\" target=\"_blank\" rel=\"noreferrer noopener\">Einbettungen f\u00fcr Bildinhalte und Texte<\/a> erzeugen und diese assoziieren k\u00f6nnen. Hiermit k\u00f6nnen zu einem Text passende Bilder und zu einem Bild passende Bildbeschreibungen generiert werden. \u00c4hnliche Einbettungen k\u00f6nnen f\u00fcr Videos, 3D-Bilder und Bewegungsabl\u00e4ufe generiert werden. Wegen des gro\u00dfen Anwendungsspektrums werden die Modelle als \u201eFoundation-Models\u201c bezeichnet, und viele Wissenschaftler*innen sind \u00fcberzeugt, dass sie die <a href=\"https:\/\/arxiv.org\/abs\/2108.07258\" target=\"_blank\" rel=\"noreferrer noopener\">Grundlage f\u00fcr die Entwicklung fortgeschrittener KI-Systeme<\/a> bilden.<\/p>\n\n\n\n<p>Wegen der hohen Anzahl von Parametern und der notwendigen gro\u00dfen Menge an Trainingsdaten wurden die bisherigen Foundation-Modelle nur von gro\u00dfen Internetfirmen entwickelt und stehen interessierten Wissenschaftler*innen nicht voll zur Verf\u00fcgung. Damit Forschende und Unternehmen von den Mehrwerten moderner Sprachmodelle profitieren k\u00f6nnen, wurde Anfang 2022 das Projekt \u201e<a href=\"https:\/\/opengpt-x.de\/\" target=\"_blank\" rel=\"noreferrer noopener\">OpenGPT-X<\/a>\u201c gestartet. Unter der Leitung der Fraunhofer-Institute IAIS und IIS wurde die Entwicklung eines leistungsf\u00e4higen <a href=\"https:\/\/tu-dresden.de\/tu-dresden\/newsportal\/news\/projektstart-open-gpt-x?set_language=en\" target=\"_blank\" rel=\"noreferrer noopener\">offenen KI-Sprachmodells f\u00fcr Europa<\/a> vorangetrieben.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Sogenannte Foundation-Modelle entwickeln sich schnell und k\u00f6nnen bereits qualitativ anspruchsvolle Aufgaben automatisiert durchf\u00fchren und unterschiedliche Medien gleichzeitig betrachten. Dieser Beitrag wirft einen Blick hinter die Kulissen der gro\u00dfen Sprachmodelle.<\/p>\n","protected":false},"author":9,"featured_media":4760,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,396,1418],"blog-tag":[1480,1488,1516,1559,1598,1612],"class_list":["post-4757","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-forschung","blog-category-sprachtechnologien","blog-tag-deep-learning-de","blog-tag-foundation-modelle","blog-tag-gpt-de","blog-tag-nlp-de","blog-tag-sprachmodelle","blog-tag-tiefe-neuronale-netze"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4757","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4757\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4760"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4757"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4757"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4757"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}