Besonders in den letzten Jahren ist das Interesse am Bereich Machine Learning deutlich gestiegen und mit großem Zuwachs wurden auch neue Erfolge gewonnen. Das übergreifende Ziel: Eine Annäherung an Artificial General Intelligence (AGI), also ein System, das Kompetenzen vergleichbar mit den kognitiven Fähigkeiten eines Menschen besitzt und dadurch jegliche Art von Problem verstehen und lösen kann. Doch mit der fortschreitenden Entwicklung wächst auch eine Besorgnis um Missbrauch oder Zweckentfremdung der KI-Systeme und es stellt sich zunehmend die Frage nach angemessenen ethischen Richtlinien. Im Fokus stand hier vor einiger Zeit besonders das Sprachmodell GPT-2 der Forschungseinrichtung OpenAI, welches mit seinen qualitativ hochwertigen und außergewöhnlich menschenähnlichen Textgenerierungsfähigkeiten für Aufsehen sorgte. Die Angst, die dahintersteht: Eine Nutzung des Modells zur Nachahmung wichtiger Personen des öffentlichen Lebens und der automatisierten Generierung von Fake News. Doch sind diese Sorgen berechtigt und wie weit gehen die Fähigkeiten der KI-Modelle tatsächlich?
Wie wurde das GPT-2 trainiert?
Das GPT-2 gehört zu der Reihe der Generative Pre-trained Transformer, entwickelt von Forschenden bei OpenAI. Wie der Name schon andeutet, liegt bei den GPTs neben einem grundsätzlichen Sprachverstehen vor allem die Generierung von Text im Fokus. In seiner Architektur ähnelt GPT-2 anderen Transformer-Modellen wie BERT oder ELMo, nutzt anstatt von Encoder- jedoch nur Decoder-Blöcke und arbeitet auto-regressiv (Mehr Informationen zu der Funktionsweise von BERT im Blogbeitrag “BERT: Wie beschreiben Vektoren treffend den Sinngehalt von Wörtern?”). Eine weitere Besonderheit liegt in der Größe des Modells. Die einzelnen Modellvarianten umfassen bis zu Billionen an Parametern, also ein Vielfaches mehr als andere Transformer-Architekturen, wie zum Beispiel BERT Large mit 340 Millionen Parametern.
Im Training wurde für das GPT-2 ein unüberwachtes Verfahren mit generalisierter Optimierungsfunktion gewählt. Das heißt, es gab kein explizites Trainingsproblem, sondern das Modell sollte einfach die Verteilung von Wörtern innerhalb eines gegebenen Kontexts lernen und somit ein generelles Sprachverständnis erlangen. Als Datensatz wurde dazu eine Sammlung von Text-Korpora aus diversen Domänen, beziehungsweise Genres, genutzt, um mehr Vielfalt in das Modell zu bringen. So sollte das menschliche Lernverhalten nachgeahmt und GPT-2 zu einem “multi-task learner” entwickelt werden, welcher allgemeine Muster im sprachlichen Input lernen und später auf unterschiedlichste Aufgaben übertragen kann. Im Gegensatz dazu wird für viele NLP-Probleme derzeit ein Ansatz mit Task-spezifischem Lernen oder Fine-tuning verfolgt. Während der GPT-Vorreiter auch noch davon profitiere, soll der Trend aber nun von sogenannten “narrow experts” weg und hin zu “competent generalists” und anpassungsfähigeren Modellen gesetzt werden.
Das Problem – AI in falschen Händen
Mit dieser noch neuartigen Perspektive auf maschinelles Lernen konnte das GPT-2 im Vergleich mit spezialisierten Modellen mithalten und auf einigen der Benchmark Datensätze sogar state-of-the-art Ergebnisse erzielen. Dabei ist es wichtig im Hinterkopf zu behalten, dass das GPT-2 diese Test-Datensätze vorher nicht gesehen hatte und die geforderten Aufgaben rein durch natürlichsprachliche Anweisungen lösen sollte. Verblüffende Ergebnisse zeigten sich außerdem bei den Textgenerierungsaufgaben: Auf Eingabebeispiele hin, generiert das GPT-2 beliebig lange Fortführungen, kongruent zum inhaltlichen Thema. Dabei verhält sich das Modell “Chamäleon-ähnlich” und passt sich auch in Stil und Ton dem vorgegebenen Input an. Damit zeigt es ein vorher unbeobachtetes Maß an Sprachverstehen und Expressivität.
Genau diese Fähigkeiten waren allerdings auch das, was zu der Besorgnis in der Öffentlichkeit und unter den Entwicklern führte. Das wohl bekannteste von GPT-2 generierte Stück ist der Entdeckung einer Einhörner-Herde in den Anden gewidmet. Dabei gleicht der generierte Text in Form und Schreibweise einem Zeitungsartikel und zeigt eine bis dahin unerreichte Qualität des Outputs, insbesondere in den Aspekten Kreativität, Kohärenz und Argumentationslinie. Er ist auf den ersten Blick nicht als automatisiert verfasst zu erkennen und von dem Schriftwerk eines Menschen zu unterscheiden. Andere Beispiele umfassen einen Bericht über gestohlenes Nuklearmaterial und ein Testament zu den vermeintlichen Gefahren des Recyclings. Die Sorge ist also damit begründet, dass das Sprachmodell von Dritten zur Generation genau dieser Art von Beiträgen, ihrer Verbreitung über soziale Medien und Beeinflussung der Massen genutzt werden könnte. Um dem entgegenzuwirken, entschied sich OpenAI schließlich vorerst nur kleinere Modellvarianten mit minderer Performanz zu veröffentlichen.
Die Realität – Studien und weitere Modelle
Doch wie gut ist das Modell wirklich? Wie nah ist es an den Fähigkeiten eines Menschen? Einschätzungen des Open AI – Teams zufolge, begrenzt sich die Zahl der tatsächlich schlüssigen und natürlich-wirkenden Texte auf nur ca. 50% der während initialer Tests generierten Outputs. Die zuvor erwähnten Beiträge gehören zu einer Auswahl an sorgfältig zusammengestellten Beispielen, deren Repräsentativität für die Gesamtheit der generierten Texte fraglich ist. Die Autoren selbst merken an, dass es ein paar Versuche dauert, bis man solch einen überzeugenden Beitrag erhält. Oft käme es zu Unstimmigkeiten wie Wiederholungen, plötzlichem Themenwechsel oder Problemen bei der Modellierung der realen Welt. Bei genauem Hinschauen lassen sich auch bei den Vorzeige-Exemplaren kleinere Inkongruenzen finden: Im Beispiel der Einhörner werden diese erst als aus der Evolution hervorgegangene Art bezeichnet, später allerdings als Alien-Rasse referenziert. Auch was räumliche Beziehungen angeht, gibt es Diskrepanzen.
Ein weiterer Faktor bei der Qualität der Outputs ist die “Familiarität” des Modells mit dem Thema des zu generierenden Beitrags, oder in anderen Worten: der Distribution der Trainingsdaten. So ist es wie bei anderen Netzwerken einfacher Outputs zu generieren, die sehr ähnlich zu den Trainingsdaten sind und oft im Datensatz vorkommen. Für Textgenerierungsmodelle sind das oftmals Forumsbeiträge, Wikipedia- und Nachrichten-Artikel, da diese als Quelle für neue Webcrawl Datensätze einfach verfügbar sind. Andere Themengebiete wie zum Beispiel Technik und Esoterik kommen dagegen seltener vor und sind damit auch schwieriger zu reproduzieren. Was Kreativität und Textverständnis angeht, wird hier deutlich, dass das GPT-2 in erster Linie immer noch ein simples Sprachmodell ist, dessen Hauptaufgabe nur darin besteht, die Wahrscheinlichkeiten aufeinanderfolgender Wörter zu berechnen.
Als letzter Punkt scheint die Größe der Modelle ausschlaggebend für ihre Adaptivität zu sein und Parameterzahl und Performanz scheinen stark zu korrelieren. So sind vor allem die von den größten Modellen generierten Texte sehr schwierig von denen einer echten Person zu differenzieren. Entgegen der ursprünglichen Bedenken hat OpenAI inzwischen allerdings auch diese Modellvarianten veröffentlicht und die Modelle sogar für kommerzielle Zwecke freigegeben. Auch einen Nachfolger gibt es bereits, das GPT-3. Bei ihm liegt der Fokus auf der Generierung Twitter Post-ähnlicher Texte. Für Untersuchungen zu diesem Modell nahmen sich die Entwickler allerdings etwas mehr Zeit und führten Studien mit menschlichen Partizipanten durch. Bei Beurteilungsstudien zum Verfasser eines vorliegenden Textes –, Mensch oder Maschine –, lag die Erkennungsquote der Teilnehmer bei ca. 52%. Im Gegensatz zum GPT-2 sind die von GPT-3 generierten Twitter-Posts aber natürlich viel kürzer und freier in ihrer Struktur, also auch wesentlich einfacher zu generieren. Im Kontext sind die von GPT-2 generierten Texte damit potenziell einfacher zu identifizieren und wahrscheinlich weniger gefährlich als zuerst angenommen. Eine abschließende Frage wäre damit, ob die Modelle vorerst nur aus Publicity-Gründen oder tatsächlich aus Bedenken an ihrer Nutzung zurückgehalten wurden.
Mehr Zeit für Forschung
Zusammenfassend lässt sich für den Bereich Natural Language Processing feststellen, dass der Trend in Richtung einfacher Modell-Architekturen geht, die mit Tiefe an Vielseitigkeit und Qualität ihrer Repräsentationen gewinnen. Zusätzlich ist eine starke Abhängigkeit zu den im Training verwendeten Daten erkennbar, wodurch auch schon kleinere Modelle, die auf spezifischen Datensätzen trainiert wurden, zu bedenklichen Outputs gelangen könnten. Für zukünftige Forschungsarbeiten sollte verstärkt ein Augenmerk auf die Qualitätsprüfung der vorliegenden Trainingsdaten gelegt werden, und Biases, kontroverser und anderer fragwürdiger Inhalt noch stärker filtriert werden. Womit OpenAI in diesem Zuge Recht zu geben ist, ist der Aufruf nach mehr Zeit für die Entwicklung von KI-Modellen, eingeschlossen der eben genannten Aspekte, Testung durch qualitative und quantitative Evaluierungsstudien, sowie Einhaltung angemessener Richtlinien. Hierdurch könnten unangebrachte Outputs besser vermieden und eine sinnvolle Nutzung solcher Modelle wie des GPT-2 gewährleistet werden. Einen weiteren Einblick zur Slow Science gibt es im Blogbeitrag “Slow Science: Mehr Zeit für Forschung im Maschinellen Lernen”.