
Große Sprachmodelle (engl.: Large Language Models, kurz: LLMs) sind in den letzten Jahren immer leistungsfähiger, zuverlässiger und verfügbarer geworden. Ein Beispiel ist ChatGPT, das weltweit über eine einfache und vertraute Chat-Schnittstelle verfügbar gemacht wurde. Innerhalb von nur fünf Tagen erreichte ChatGPT eine Million Nutzer*innen – deutlich schneller als die meisten anderen Apps, wie die untenstehende Abbildung zeigt. Neuere Versionen können nicht nur Text, sondern auch Bilder verarbeiten, und ermöglichen so eine vielfältigere Interaktion mit den Nutzer*innen. Die Verwendung verschiedener Modalitäten steigert die Leistungsfähigkeit von LLMs erheblich und wird sie zu einem unverzichtbaren Werkzeug für die zukünftige Arbeit mit KI-Assistenten machen. Diese Assistenten sind zwar noch nicht in der Lage, eigenständig Aufgaben zu erledigen, können aber Menschen bei vielfältigen Aufgaben unterstützen, indem sie erste Entwürfe erstellen, die anschließend vom Menschen gefiltert, kuratiert und angepasst werden. In diesem Artikel betrachten wir die jüngsten Entwicklungen in der KI im Zusammenhang mit LLMs und erkunden mögliche zukünftige Richtungen, einschließlich der Multimodalität.

Quelle: https://www.statista.com/chart/29174/time-to-one-million-users/
Was ist ein großes Sprachmodell (LLM)?
Ein großes Sprachmodell (engl.: Large Language Model kurz: LLM) ist ein KI-System, das speziell darauf trainiert wurde, menschliche Sprache zu verstehen und zu erzeugen. Diese Modelle, wie beispielsweise ChatGPT und Gemini, haben sich in den letzten Jahren aufgrund ihrer Größe und Leistungsfähigkeit stark weiterentwickelt. Sie fungieren im Wesentlichen als hochentwickelte Autovervollständigungen, die auf Textanfragen sinnvolle und präzise Antworten liefern können.
LLMs werden mit riesigen Mengen an Textdaten trainiert, was wochenlanges Training auf Hunderten von High-End-GPUs erfordert. Durch die Verarbeitung von Milliarden von Beispielen lernen große Sprachmodelle, komplexe Sprachmuster zu erkennen und darauf zu reagieren. Traditionell bedeutet das Training mit mehr Daten und die Verwendung eines größeren Modells eine bessere Performance, weshalb moderne LLMs immer umfangreicher werden.
Text ist die am häufigsten verwendete Eingabeform für LLMs, da er im Überfluss vorhanden und leicht zu verarbeiten ist. Während des Trainings werden die Modelle darauf trainiert, das nächste Wort in einem Satz vorherzusagen, was zur Entwicklung leistungsstarker Systeme wie ChatGPT beigetragen hat.
Obwohl Text die primäre Eingabemodalität bleibt, haben LLMs auch das Potenzial, andere Modalitäten wie Audio zu verarbeiten. Dies würde jedoch zusätzliche Verarbeitungsressourcen erfordern. Große Sprachmodelle sind daher ein zentraler Bestandteil der aktuellen Forschung und Entwicklung im Bereich der Künstlichen Intelligenz.
Was ist eine Modalität?
Eine Modalität bezeichnet die Art der Daten, die ein Modell empfängt. Typische Modalitäten umfassen Audio, Text, Bilder und Video, welches natürlicherweise multimodal ist durch die Kombination von Audio und einer Bildsequenz. Frühere KI-Modelle waren oft auf spezialisierte Aufgaben mit einer einzigen Datentyp-Art beschränkt. Ein Modell, das darauf trainiert ist, zwischen Bildern von Katzen und Hunden zu unterscheiden, verarbeitet ausschließlich visuelle Eingaben und ist somit unimodal.
Im Gegensatz dazu integriert und verarbeitet ein multimodales Modell mehrere Arten von Daten gleichzeitig. Es nutzt beispielsweise ein Bild eines Tieres, Audioaufnahmen von Tierlauten und eine Textbeschreibung, um seine Leistung zu verbessern. Durch die Verwendung verschiedener Datentypen und -quellen können multimodale Modelle umfassendere und genauere Ergebnisse erzielen.
Die Entwicklung von multimodalen Modellen stellt einen bedeutenden Fortschritt in der KI-Forschung dar. Diese Modelle sind in der Lage, Antworten zu verstehen und zu generieren, die den Kontext aus verschiedenen Datenquellen berücksichtigen und so die kognitiven Fähigkeiten des Menschen besser nachahmen. Bei der Verarbeitung natürlicher Sprache (NLP) kann ein multimodales Modell beispielsweise nuanciertere und kontextsensitivere Antworten generieren, indem es visuelle oder auditive Informationen neben textlichen Inputs berücksichtigt.
Darüber hinaus bietet multimodale KI in verschiedenen Anwendungsbereichen praktische Vorteile In der Medizin können solche Systeme beispielsweise medizinische Bilder, Patientenakten und klinische Notizen kombinieren, um Diagnosen genauer zu stellen. Im Bereich des autonomen Fahrens ermöglichen sie Fahrzeugen die Verarbeitung visueller Daten von Kameras, akustischer Signale und textueller Informationen von Straßenschildern zur Verbesserung der Sicherheit. Die Integration mehrerer Modalitäten bringt jedoch Herausforderungen mit sich, wie erhöhte Rechenkomplexität und die Entwicklung fortschrittlicher Algorithmen zur effektiven Datensynthese. Trotzdem verspricht die Entwicklung intelligenter und kontextbewusster KI-Systeme in diesem Bereich spannende Fortschritte und Anwendungsmöglichkeiten.
Die Vorteile der Multimodalität
Einer der Vorteile der Multimodalität bei großen Sprachmodellen ist, dass verschiedene Datenarten (Modalitäten) wie Text, Audio und Bilder kombiniert werden, um die Leistung des KI-Modells zu verbessern. Beispielsweise können die Modalitäten Text und Audio kombiniert werden, um ein besseres Ergebnis für eine Übersetzungsaufgabe zu erzielen. Der Mensch macht ständig Gebrauch von mehreren Modalitäten (Sinnen), um komplexe Probleme zu lösen und sich in der Welt zurecht zu finden. Dabei reagieren wir sehr empfindlich auf Unstimmigkeiten zwischen den von uns wahrgenommenen Modalitäten wenn z. B. der Ton in einem Video eine Verzögerung hat, lenkt uns das ab und beeinträchtigt die Nutzererfahrung. Folglich müssen die verschiedenen Modalitäten (Bild, Ton, Text usw.) kohärent und synchron sein, damit multimodale Systeme effektiv sind.
Moderne LLMs durchlaufen einen umfangreichen Trainingsprozess, der in erster Linie mit textbasiertem Vortraining (pre-training) beginnt, bevor zusätzliche Modalitäten einbezogen werden. Dieser stufenweise Ansatz ermöglicht es den Modellen, zunächst einzelne Modalitäten zu beherrschen und sie später zu komplexeren, multimodalen (zwei oder mehr Modalitäten) Aufgaben zu kombinieren. Dies ist vergleichbar mit der Art und Weise, wie der Lernstoff mit fortschreitender Klassenstufe immer komplexer wird.
Eine derzeitige Einschränkung von Modellen wie ChatGPT ist die Verarbeitung multimodaler Informationen in rein textbasierten Formaten. Die Integration von Text, Audio und Bildern in einen einzigen Textprompt erfordert beispielsweise separate Modelle für die Transkription von Audio und Bildunterschriften, was zu Fehlern führen und die Wirksamkeit der kombinierten Informationen einschränken kann. Die Forschung bevorzugt daher die Entwicklung echter multimodaler Modelle, die verschiedene Datenarten innerhalb eines Modells verarbeiten können, um genauere Ergebnisse zu erzielen, da die direkte Verarbeitung mehrerer Modalitäten innerhalb eines einzigen Modells ein wesentlich robusterer Ansatz ist.
Erforschung multimodaler Sprachmodelle: Gemini von Google DeepMind als Beispiel
Multimodale Sprachmodelle (LLMs) stellen ein spannendes Forschungsfeld der Künstlichen Intelligenz dar. Sie integrieren nahtlos verschiedene Eingabemodi, um das Verständnis und die Generierung von Antworten zu verbessern. Ein beispielhaftes Modell, das diese Fähigkeit veranschaulicht, ist Gemini von Google DeepMind. Nutzer*innen können Bilder hochladen und deren Inhalt durch einen prompt abfragen (Hinweis: Aktuell werden Bilder mit Menschen nicht unterstützt). Durch das Stellen mehrerer Fragen können Nutzer*innen die Fähigkeiten des Modells erkunden und Schwachstellen in seinem Weltwissen aufdecken. Im Wesentlichen ermöglicht Gemini den Nutzer*innen eine Bildsuche, indem sie ein Bild bereitstellen und eine Frage stellen. Darüber hinaus kann Gemini auch Audio und sogar mehrere Modalitäten gleichzeitig verarbeiten.

Moderne große Sprachmodelle (LLMs) verstehen Sprache gut und verknüpfen sie mit unserer Alltagswelt. Durch spezifische Strukturkomponenten können sie die bereitgestellten Informationen enkodieren und so klare und aussagekräftige Antworten generieren, nicht nur zufällige Wortfolgen.
Eine weitere interessante Anwendung ist „Be My Eyes“, eine mobile App für Menschen mit Sehproblemen, die mithilfe von KI-Technologie Bildbeschreibungen bietet und so die Selbstständigkeit und den Zugang zu Informationen verbessert. Trends in der Forschung zu großen multimodalen Sprachmodellen und zukünftige Entwicklungen.
Trends in der LLM-Forschung und mögliche zukünftige Entwicklungen
Die Forschung zu großen multimodalen Sprachmodellen LLMs zeigt vielversprechende Trends und spannende Zukunftsperspektiven. Ein Beispiel ist Gemini, das in der Lage ist, Bilder zu analysieren und auf Fragen textbasiert zu antworten. Doch was wäre, wenn ein Modell wie Gemini nicht nur Bilder analysieren, sondern auch bearbeiten und eine Audiobeschreibung der Änderungen erstellen könnte? Diese Funktionen sind zwar noch nicht vollständig umgesetzt, aber sie sind keine ferne Zukunftsvision.
Vorstellbar ist eine verbesserte Version der bestehenden Modelle, die praktische Anwendungen ermöglicht. So könnte eine zukünftige KI sich nahtlos in menschliche Aufgaben einfügen und auf Plattformen wie „fiverr.“ Dienstleistungen anbieten. Die fortschreitende Entwicklung dieser KI-Systeme nähert sich immer mehr den menschlichen Fähigkeiten an. Menschen nehmen ständig verschiedene Arten von Daten wahr – visuell, auditiv, olfaktorisch, gustatorisch und taktil. OpenAI hat beispielsweise Spracherkennung mit einem humanoiden Roboter demonstriert, der seine Umgebung sehen, beschreiben und Objekte manipulieren kann. Solche Roboter sind letztlich auch multimodale LLMs.
Der Erfolg von ChatGPT liegt in seiner benutzerfreundlichen Chat-Oberfläche, die eine breite Akzeptanz ermöglicht. Künstliche Intelligenz muss intuitiv und leicht zugänglich sein, um eine breite Akzeptanz zu erreichen. Denn wenn wir etwas nicht direkt ausprobieren können, warum sollten wir es dann benutzen? Aus diesem Grund sind LLMs ein beliebter Trend und bleiben relevant, da zukünftige KI-Systeme mit Menschen kommunizieren und mindestens eine unserer Sprachen beherrschen müssen.
Ein weiterer interessanter Entwicklungsschritt wird ein LLM sein, das als Agent agiert. Ein Agent empfängt nicht einfach eine Eingabe und produziert eine Ausgabe, sondern läuft in einer Art iterativem Prozess und ist in der Lage, seine Handlungen und Gedanken anzupassen, um ein Problem zu lösen. Ein Beispiel dafür ist die KI Devin, die Programmierprobleme lösen kann, indem sie die Fehler analysiert, die ihr Code produziert, nach Lösungen sucht und die Ergebnisse in ihren Code integriert.
Zusammengefasst zeigen die aktuellen Trends in der LLM-Forschung, dass die zukünftige Entwicklung von KI-Systemen noch tiefgreifender in unseren Alltag integriert wird, indem sie unsere Kommunikationsweisen und Problemlösungsprozesse immer besser nachahmen und unterstützen. Die zukünftige Rolle von LLMs in der Künstlichen Intelligenz.
Schlusssatz
LLMs sind ein zentraler Bestandteil der Künstlichen Intelligenz, da sie erstmals eine nahtlose Interaktion mit KI in menschlicher Sprache ermöglichen. Durch die Integration verschiedener Modalitäten in diese Modelle werden sie zunehmend in der Lage sein, komplexere Aufgaben zu bewältigen und menschlichen Fähigkeiten immer näher zu kommen. Diese Entwicklung wird die Art und Weise, wie wir mit KI interagieren, grundlegend verändern und eine allgegenwärtige Nutzung von KI fördern.