Mit Sprachmodellen stimmige Texte erzeugen: Foundation-Modelle als Grundlage von KI-Systemen

|Foundation-Modelle: Beispielfrage mit Systemantwort|||
© ML2R

Sprachtechnologien unterstützen bereits heute viele Menschen und Unternehmen dabei, ihren Alltag effizienter zu gestalten. Durch den Einsatz von Maschinellem Lernen (ML) ist die maschinelle Verarbeitung natürlicher Sprache mittlerweile auf einem sehr hohen Niveau. Große Sprachmodelle – auch Foundation-Modelle genannt – entwickeln sich schnell und können bereits qualitativ anspruchsvolle Aufgaben wie die Erstellung von Computer-Programmen und Zeitungsberichten automatisiert durchführen und unterschiedliche Medien gleichzeitig betrachten. In diesem Beitrag werfen wir einen Blick hinter die Kulissen der Sprachtechnologien, welche auch als Beiträge zur Künstlichen Intelligenz (KI) betrachtet werden können.

Foundation-Modelle als Grundlage von KI-Systemen

Beginnt ein Satz mit den Worten „Der Hund“, so können auf der nächsten Wortposition viele unterschiedliche Worte auftauchen, zum Beispiel „lief“ oder „bellte“. Andererseits sind viele andere Worte dort aus syntaktischen oder inhaltlichen Gründen nicht möglich, etwa „grün“ oder „gern“. Daher hat man sogenannte Sprachmodelle definiert, die die Wahrscheinlichkeit für die möglichen nächsten Worte berechnen sollen, und die als eine bedingte Wahrscheinlichkeit formalisiert werden können: p(v3 | v1 = Der, v2 = Hund). In unserem Falle sollten die Worte „lief“ und „bellte“ eine hohe bedingte Wahrscheinlichkeit erhalten und „grün“ sowie „gern“ die Wahrscheinlichkeit 0,0.

Wie kann man nun die bedingten Wahrscheinlichkeiten mit einem Modell erfassen? Es hat sich gezeigt, dass tiefe neuronale Netze mit Assoziationsmodulen besonders geeignet sind, bedingte Wahrscheinlichkeiten vorherzusagen. Hierbei werden die Worte der Sprache durch eine begrenzte Anzahl von Token dargestellt, sodass häufige Worte eigene Token sind und seltenere Worte aus Token zusammengesetzt werden. Jedes Token wird durch einen kontextabhängigen Einbettungsvektor dargestellt, welcher die Bedeutung des Tokens repräsentiert. Diese können durch die Berücksichtigung der Nachbarworte zudem die Bedeutung von mehrdeutigen Worten wie zum Beispiel „Bank“ erklären, die je nach Kontext ein Finanzinstitut oder eine Sitzgelegenheit sein kann. Der Algorithmus zur Berechnung solcher Einbettungen wurde in den Beiträgen „Die Bedeutung von Worten durch Vektoren erfassen“ und „BERT: Wie beschreiben Vektoren treffend den Sinngehalt von Wörtern“ detailliert dargestellt.

Ein Sprachmodell muss die Wahrscheinlichkeiten der Worte eines Satzes nacheinander erzeugen. Dies wird in der nachfolgenden Animation dargestellt. Das Modell erhält zu Beginn das Startsymbol (v1 = BOS) als Eingabe. Anschließend wird der Algorithmus von BERT in mehreren Ebenen für die bisher bekannten Worte des Satzes durchgeführt. Jede Ebene enthält eine Reihe paralleler Assoziationsmodule, welche jeweils einen neuen kontextsensitiven Einbettungsvektor für jedes Eingabe-Token erzeugt.

© ML2R
Ein Sprachmodell muss die Wahrscheinlichkeiten der Worte eines Satzes nacheinander erzeugen. In diesem Beispiel erhält das Modell zu Beginn das Startsymbol (v1 = BOS). Daraufhin wird der BERT-Algorithmus in mehreren Ebenen für bisher bekannte Worte durchgeführt, sodass jede Ebene eine Reihe paralleler Assoziationsmodule erzeugt.

Aus dem am weitesten rechts positionierten Einbettungsvektor wird nun mithilfe eines logistischen Regressionsmodells ein Wahrscheinlichkeitsvektor prognostiziert, der für jedes mögliche Token die Wahrscheinlichkeit abschätzt, mit der dieses an der nächsten Position erscheinen kann. Als nächsten werden die Token (v1 = BOS, v2 = Der) als Eingabe verwendet und eine Prognose für das dritte Token berechnet. Dies geht so weiter bis aus (v1 = BOS, v2 = Der, v3 = Hund, v4 = er#, v5 = spähte, v6 = die) das letzte Token prognostiziert wird. Jedes Mal werden dabei neue kontextsensitive Einbettungen für alle bisherigen Worte berechnet und es stehen zusätzliche Informationen für das letzte Token zur Verfügung. Das Modell wird mit Texten aus einem großen Trainingsdatensatz trainiert, sodass es dem beobachteten Token im Text eine möglichst hohe Wahrscheinlichkeit zuordnet, wenn die vorherigen Token als Starttext eingegeben werden. Die Details dieser Modelle werden in dem Buch „Künstliche Intelligenz – Was steckt hinter der Technologie der Zukunft?“ dargestellt.

Mit dem Sprachmodell GPT-3 stimmige Texte generieren

Das Modell GPT-3 kann Eingabetexte von maximal 2048 Token verarbeiten und berücksichtigt damit einen sehr großen Kontext. Es hat 96 Ebenen mit jeweils 96 parallelen Assoziationsmodulen. Insgesamt hat es 175 Milliarden freie Parameter und kann dadurch sehr aussagekräftige kontextabhängige Einbettungen erzeugen. Es wurde auf einer Textsammlung aus Büchern, Wikipedia und Webseiten mit etwa 500 Milliarden Token trainiert. Das ist mehr als 100-mal so viel Text, wie ein Mensch während seines Lebens lesen könnte. Mit einem vorgegebenen Starttext kann das Sprachmodell weitgehend gesteuert werden. Durch ein oder mehrere Beispiele angewiesen, kann es einen Text für einen bestimmten Zweck, zum Beispiel Übersetzungen in eine andere Sprache oder Zusammenfassungen eines Dokuments, erzeugen (Few-shot Prompts).

Erhält GPT-3 eine Eingabe, die der Anfang eines Zeitungsartikels sein könnte, so kann es ‚Nachrichtenartikel‘ mit vielen hundert Wörtern generieren, die von menschlichen Beiträgen kaum zu unterscheiden sind. Generierte Texte enthalten nahezu keine syntaktischen Fehler und sind inhaltlich plausibel, obwohl die angegebenen Aussagen nicht immer korrekt sein müssen. Die durchschnittliche menschliche Genauigkeit bei der Erkennung von Artikeln, die mit GPT-3 produziert wurden, lag bei rund 52 %. Was die Vermutung nahelegt, dass Menschen kaum in der Lage sind, synthetisch generierte Texte von menschlichen zu unterscheiden.

Prüfung durch umfangreiche Testsammlungen

Mittlerweile wurden weitere Modelle, zum Beispiel Gopher und PaLM, mit 280 bzw. 540 Milliarden Parametern und einer ähnlichen Architektur wie GPT-3 entwickelt. Beide Modelle übertreffen GPT-3 in der Qualität der erzeugten Texte. Um die Leistungsfähigkeit der Modelle detailliert abschätzen zu können, wurden sie mit einer Sammlung von mehr als 150 Benchmark-Tests aus einer Vielzahl von Anwendungsbereichen – etwa Medizin, logisches Denken, Geschichte, usw. – überprüft. Die Modelle wurden nicht, wie zuvor bei BERT, für diese Aufgaben durch Finetuning trainiert, sondern durch Few-shot Prompts instruiert. Gopher war in der Lage, die Genauigkeit von GPT-3 in mehr als 82 % dieser Aufgaben zu verbessern. PaLM erreichte eine höhere Punktzahl als die durchschnittliche Punktzahl von Menschen, welche die gleichen Aufgaben lösten. Eine Besonderheit von PaLM ist, dass es wesentlich besser logische Schlüsse ziehen kann als bisherige Modelle. Dies wird durch Prompts unterstützt, die eine logische Schlusskette für ein Beispielproblem vorgeben. Hierdurch erhält das Modell eine Anleitung, wie das Problem durch eine Aufteilung in Teilschritte gelöst werden kann. Eine Beispielanfrage ist im folgenden Kasten zu sehen, wobei die Systemantwort grün gedruckt ist:

Screenshot 2022 08 03 101706 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© ML2R

Durch dieses though-chain-prompting konnte die Fähigkeit des Modells zur Beantwortung logischer Fragen stark gesteigert werden. Es ist wichtig, dass für verschiedene logische Probleme immer die gleiche Beispielaufforderung verwendet werden kann. Nach diesem Muster ist das Modell sogar in der Lage, Witze zu erklären.

Allerdings haben diese Modelle auch Schwächen. Da sie die in den Daten vorgefundenen Zusammenhänge repräsentieren, können sie auch Vorurteile über bestimmte Bevölkerungsgruppen reproduzieren. Zudem sind sie nicht immun gegen Fehlurteile und sachliche Fehler, die sie aus den Trainingsdaten rekonstruieren, oder aber einfach nur plausiblen assoziieren. Der Beitrag „Faktensichere Textgenerierung mit Retrieval Networks“ beschreibt Techniken, wie man diese Probleme verringern kann.

Foundation-Modelle: Eine neue Grundlage für Künstliche Intelligenz

Mittlerweile gibt es Modelle, die mit der gleichen Technik (parallele Assoziationsmodule, Attention) gleichzeitig Einbettungen für Bildinhalte und Texte erzeugen und diese assoziieren können. Hiermit können zu einem Text passende Bilder und zu einem Bild passende Bildbeschreibungen generiert werden. Ähnliche Einbettungen können für Videos, 3D-Bilder und Bewegungsabläufe generiert werden. Wegen des großen Anwendungsspektrums werden die Modelle als „Foundation-Models“ bezeichnet, und viele Wissenschaftler*innen sind überzeugt, dass sie die Grundlage für die Entwicklung fortgeschrittener KI-Systeme bilden.

Wegen der hohen Anzahl von Parametern und der notwendigen großen Menge an Trainingsdaten wurden die bisherigen Foundation-Modelle nur von großen Internetfirmen entwickelt und stehen interessierten Wissenschaftler*innen nicht voll zur Verfügung. Damit Forschende und Unternehmen von den Mehrwerten moderner Sprachmodelle profitieren können, wurde Anfang 2022 das Projekt „OpenGPT-X“ gestartet. Unter der Leitung der Fraunhofer-Institute IAIS und IIS wurde die Entwicklung eines leistungsfähigen offenen KI-Sprachmodells für Europa vorangetrieben.

Dr. Gerhard Paaß

Dr. Gerhard Paaß ist Senior Data Scientist am Fraunhofer Institut IAIS in Sankt Augustin im Team Natural Language Unterstanding. Er vermittelt in unterschiedlichen Kursen und Vorlesungen Kenntnisse über Maschinelles Lernen und Deep Learning und hat eine Monographie über „Künstliche Intelligenz“ verfasst. Sein Forschungsfeld ist die kontrollierte Erzeugung von Texten unter Verwendung von Zusatzwissen.

Dr. Jörg Kindermann

Jörg Kindermann ist wissenschaftlicher Mitarbeiter am Lamarr-Standort des Fraunhofer Instituts IAIS in Sankt Augustin. Sein Forschungsinteresse ist auf die Anwendung neuer Verfahren des Deep Learning und allgemeiner der Künstlichen Intelligenz auf Fragestellungen der Linguistik ausgerichtet. Spaß bereitet es ihm dabei besonders, Lösungen in die Praxis zu bringen.

Weitere Blogartikel