Skalierungsgesetze emergenter Mehrsprachigkeit in Vision-Language-Modellen

Abstrakte Visualisierung eines Vision-Language-Modells zur Veranschaulichung von mehrsprachiger Generalisierung und Skalierungseffekten in der KI

Symbolische Darstellung von Skalierungsgesetzen und emergenten mehrsprachigen Fähigkeiten in Vision-Language-Modellen.

Wie und unter welchen Bedingungen emergente Fähigkeiten in Vision-Language-Modellen entstehen, ist eine zentrale Frage der aktuellen KI-Forschung. In der Studie „Scaling Laws for Conditional Emergence of Multilingual Image Captioning via Generalization from Translation“ werden empirische Skalierungsgesetze beschrieben, die erklären, wann Modelle in der Lage sind, Bilder in neuen Sprachen zu beschreiben, obwohl dafür keine entsprechenden Bild-Text-Daten vorliegen.

Die Arbeit zeigt, dass mehrsprachige Bildbeschreibung als conditional emergence aus der Kombination visueller Bildbeschreibung in einer Sprache und rein textbasierter mehrsprachiger Übersetzungsdaten hervorgehen kann. Entscheidend ist dabei die Skalierung des Trainingssettings: Modellgröße, Umfang der Übersetzungsdaten und sprachliche Vielfalt bestimmen gemeinsam, ob und wie stabil diese Fähigkeit auftritt.

Die Ergebnisse sind vor dem Hintergrund aktueller Forschungsdebatten besonders relevant – etwa zur Generalisation über Modalitäten und Sprachen hinweg, zu Low-Resource-Ansätzen für globale KI sowie zu effizienteren Alternativen gegenüber aufwendiger multimodaler Datenerhebung.

Die Modelle werden auf etablierten Benchmarks wie Multi30K, COCO Karpathy, XM3600 und CoMMuTE evaluiert und zeigen dort eine konsistente Übertragungsleistung bei multimodalen Sprachaufgaben. Die Studie verdeutlicht damit, dass emergente multimodale Fähigkeiten nicht zufällig entstehen, sondern eng an klar beschreibbare Skalierungseffekte gekoppelt sind.

An der Arbeit beteiligt ist Prof. Dr. Sven Behnke, Principal Investigator und Area Chair Embodied AI am Lamarr-Institut für Maschinelles Lernen und Künstliche Intelligenz. Die Studie adressiert zentrale Fragestellungen zu Emergenz, Generalisation und Skalierung in komplexen KI-Systemen. Die Ergebnisse werden auf der AAAI Conference on Artificial Intelligence von Julian Spravil, Research Engineer am Lamarr-Partnerinstitut Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS, vorgestellt.

Zur Studie „Scaling Laws for Condtional Emergence of Multilingual Image Captioning“

Themen

Embodied AI

Themen

Weitere News