Multilinguales Instruction-Tuning: Benötigen mehrsprachige Modelle auch mehrsprachige Instruktionen? 

Big data technology Data science analysing artificial intelligence generative AI deep learning machine learning algorithm Neural flow network analytics innovation abstract futuristic. 3d rendering
© Tamer Yilmaz – stock.adobe.com

Einführung in das multilinguale Instruction-Tuning 

Angesichts der sich stetig weiterentwickelnden Landschaft großer Sprachmodelle (LLMs) hat sich das Instruction-Tuning mit multilinguale Daten zu einem wichtigen Schwerpunktbereich entwickelt. Die Studie, die im Rahmen des OpenGPT-X-Projekts durchgeführt wurde – mit dem Ziel, ein europäisches mehrsprachiges LLM zu entwickeln, das auf die Bedürfnisse von Unternehmen und Forschung zugeschnitten ist -, untersucht die Auswirkung von mehrsprachigem Instruction-Tuning auf die Leistung mehrsprachiger Modelle und geht dabei auf drei wesentliche Herausforderungen ein:  

  1. Datenverfügbarkeit: Wie können wir mehrsprachige Instruction-Tuning-Daten erstellen? 
  2. Datenzusammensetzung: Wie kann man ein mehrsprachiges, vortrainiertes Modell mit Instruktionen optimieren? 
  3. Modell-Auswertung: Wie kann man diese Modelle effektiv evaluieren? 

Daraus ergab sich die zentrale Problemstellung: 

Für ein mehrsprachiges Modell – d.h. ein Modell, das größtenteils auf nicht-englischen Dokumenten vortrainiert wurde – stellt sich die Frage, welche sprachliche Zusammensetzung der Konversation am besten geeignet ist, um das Modell in die Lage zu versetzen, Anweisungen in verschiedenen Sprachen zu befolgen. 

Diagram with several speech bubbles that illustrates multilingual instruction-tuning
Abbildung 1: Ist ein mehrsprachiges, vortrainiertes Modell ausreichend für das instruction-tuning in einer Sprache? © Fraunhofer IAIS

Die Entwicklung mehrsprachiger Datensätze für das Instruction-Tuning 

Vor dem Hintergrund dieser zentralen Frage wurde der Bedarf an Datensätzen für die verschiedenen Zielsprachen evident. Während der Bactrian-X-Datensatz eine großartige Quelle quasi-paralleler Beispiele von Konversationen darstellte – indem die Antworten des GPT-3.5-Modells auf übersetzte Anweisungen zur Erstellung genutzt wurde – schlug das damals viel diskutierte LIMA-Papier, die Superficial Alignment Hypothesis, vor, dass ein kleiner, aber qualitativ hochwertiger Datensatz für instruction-tuning ausreicht, um zu lernen Anweisungen zu befolgen. Die Autoren stellten die hohe Qualität von LIMA sicher, indem der Datensatz manuell kuratiert wurde. Daher haben wir neben Bactrian-X auch Lima-X erstellt und veröffentlicht, indem wir die Anweisungen und Antworten übersetzten, um einen parallelen Datensatz für Englisch, Deutsch, Spanisch, Französisch und Italienisch zu erhalten. 

three tables giving an overview of multilingual datasets of different nature (synthetic / human curated)
Abbildung 2: Mehrsprachige Datensätze unterschiedlicher Art (synthetisch / von Menschen kuratiert) und Größe (1K / 64K).  © Fraunhofer IAIS

Versuchsaufbau und Trainingsstrategie 

In Anbetracht dieser parallelen und semantisch parallelen Datensätze haben wir einen sorgfältigen Versuchsaufbau entworfen, um verschiedene Datensatzzusammenstellungen auf ihre Effektivität beim mehrsprachigen Training zu vergleichen. Die ausgewählten Datensätze ermöglichen es uns, verschiedene Aspekte zu untersuchen:  

  • Auswirkung der Art des Datensatzes: Vergleich des gleich großen, manuell kuratierten Datensatzes (Lima-X) mit dem synthetisch erzeugten Datensatz (Bactrian-X-small). 
  • Einfluss der Größe des Datensatzes: Da Bactrian-X-small 1.030 Konversationen enthält und der vollständige Bactrian-X-Datensatz 64.000 Konversationen umfasst, können wir beurteilen, wie sich eine Vergrößerung der Datenmenge, die aus der gleichen Verteilung stammt, auf die sprachübergreifende Leistung auswirkt. 
  • Auswirkungen der Sprachzusammensetzung: Die Bewertung einsprachiger Datensätze im Vergleich zu mehrsprachigen und semantisch parallelen Datensatzzusammensetzungen wie ENDEFRITES (Bedeutung: Englisch (EN), Deutsch (DE), Französisch (FR), Italienisch (IT) und Spanisch (ES)) und semantisch nicht überlappende Datensatzzusammensetzungen wie ENDEFRITES-sampled, um einen fairen Vergleich mit einsprachigen Datensätzen zu gewährleisten.  
  • Einfluss der vorherrschenden Sprache (Englisch): Untersuchung des Einflusses des Einbezugs oder Weglassens von Englisch in den Datensätzen (Vergleich von ENDEFRITES mit DEFRITES und ENDEFRITES-sampled mit DEFRITES-sampled). 
  • Einfluss der Modellgröße: Die Experimente wurden mit zwei Modell-Checkpoints durchgeführt: einem OpenGPT-X-Checkpoint mit 7B-Parametern, der auf 1 Milliarde Token trainiert wurde, und dem größeren 8x7B-Mixtral-Modell
Complex Table showing the Training of 45 Model Variations Based on Dataset Compositions: Monolingual vs. Multilingual (x-fold fully parallel (ENDEFRITES, DEFRITES)/ same size semantically equal (ENDEFRITES-sampled, DEFRITES-sampled))
Abbildung 3: Das Training von 45 Modellvariationen auf der Grundlage von Datensatzkompositionen: Einsprachig vs. Mehrsprachig (x-fach vollständig parallel (ENDEFRITES, DEFRITES) / gleiche Größe und semantisch gleich (ENDEFRITES-sampled, DEFRITES-sampled)). © Fraunhofer IAIS

Wir haben jedes Modell auf jeder Datensatzzusammensetzung trainiert, mit Ausnahme von Mixtral-8x7B-Bactrian-X, da die verfügbaren Rechenressourcen nicht ausreichten, um das große Modell auf dem großen Datensatz zu trainieren, wie oben in Abbildung 3 gezeigt. 

Bewertungsmethodik

A graphic showing thehuman-curated MT-Bench-X data set for English, German, French, Spanish and Italian. © Fraunhofer IAIS
Abbildung 4: Von Experten kuratierter MT-Bench-X Benchmark für Englisch, Deutsch, Französisch, Spanisch und Italienisch. © Fraunhofer IAIS

Um die Herausforderung einer effektiven Bewertung in mehreren Sprachen zu bewältigen, haben wir den damaligen De-facto-Standard MT-Bench übernommen und ihn zu MT-Bench-X erweitert. Der ursprüngliche Datensatz besteht aus 80 Konversationen mit jeweils zwei Nutzerfragen/ -instruktionen und jeweils zehn Beispielen aus den acht Kategorien:  

  1. Mathematik 
  2. Programmieren 
  3. Schlussfolgern 
  4. Extraktion 
  5. Schreiben 
  6. Rollenspiel 
  7. MINT, und  
  8. Geisteswissenschaften 
A complex graphic visualising the automatic evaluation with GPT-4-as-a-judge using the MT-Bench-X benchmark.
Abbildung 5: Automatische Auswertung mit GPT-4-as-a-judge unter Verwendung der MT-Bench-X Benchmark. © Fraunhofer IAIS

Um MT-Bench auf mehrere Sprachen auszuweiten, haben wir 320 zusätzliche Beispiele hinzugefügt, indem wir die Fragen und Referenzen vom Englischen ins Deutsche, Französische, Italienische und Spanische übersetzt haben. Daraus entstand der neue Evaluierungs-Benchmark MT-Bench-X, der speziell für die Berwertung von mehrsprachigen Instruction-Tuning Modellen entwickelt wurde.

In Anbetracht der Bedeutung einer richtigen Bewertung und angesichts der Tatsache, dass die menschliche Bewertung der höchste Standard ist, haben wir die Übersetzungen manuell überprüft und kuratiert. Zusätzlich haben wir eine Studie zur Korrelation menschlicher Bewertung zu Berwertungen mit GPT-4 als Richter für die deutsche Sprache durchgeführt. 

Die MT-Bench-Familie von Benchmarks verwendet das Konzept des LLM-as-a-judge, d.h. ein leistungsfähiges großes Sprachmodell (LLM) wird gebeten, die potenziell diversen Antworten zu bewerten, die von dem zu bewertenden Modell erzeugt werden. Bei komplexen Fragen mit eindeutiger Antwort wird dem LLM-as-a-judge die richtige Antwort gegeben.  

Ergebnisse und Analyse 

Wir haben alle Modellvarianten, die auf den verschiedenen Sprachmischungen trainiert wurden, in allen von MT-Bench-X unterstützten Sprachen evaluiert, mit folgenden Ergebnissen. 

Einsprachige Auswertung

A bar chart titled 'Monolingual Performance on MT-Bench-X of the 7B Model.' The chart displays the performance scores of a 7 billion parameter model across various monolingual benchmarks. Each bar represents a different language, showing comparative results for the model's effectiveness in each language
Abbildung 6: Einsprachige Leistung des 7B-Modells auf MT-Bench-X © Fraunhofer IAIS 
A bar chart titled 'Monolingual Performance on MT-Bench-X of the 8x7B Model.' The chart illustrates performance scores for an ensemble of eight 7-billion-parameter models across different monolingual benchmarks. Each bar corresponds to a specific language, comparing the effectiveness of the ensemble model in each language
Abbildung 7: Einsprachige Leistung des 8x7B-Modells auf MT-Bench-X © Fraunhofer IAIS 

Die Ergebnisse in der Abbildung oben zeigen, dass Modelle, die auf einsprachigen Datensätzen in Sprachen wie Deutsch (Bactrian-DE), Italienisch (Bactrian-IT) und Spanisch (Bactrian-ES) trainiert wurden, im Vergleich zum mehrsprachigen Modell Bactrian-ENDEFRITES schlechter abschneiden. Gleichzeitig sticht Bactrian-EN hervor, was wahrscheinlich auf die größere Menge an englischen Daten in seinem Pre-Training zurückzuführen ist. Interessanterweise übertrifft Bactrian-FR das Modell Bactrian-ENDEFRITES in den französischen Benchmarks. Insgesamt ist kein klarer Vorteil für Modelle zu erkennen, die auf vollständig parallele gemischtsprachige Daten in der einsprachigen Auswertung optimiert wurden. Bactrian-X-small schneidet ähnlich ab, allerdings auf einem niedrigeren Niveau als Bactrian-X. 

Die größeren Mixtral-8x7B-Modelleerreichen durchweg höhere Leistung als die 24EU-7B-Modelle, die aus dem OpenGPT-X-Checkpoint stammen. Während instruction-tuning auf sprachübergreifenden Datensätzen die einsprachige Leistung für einige Modelle, wie Bactrian-X-small und Lima-X, tendenziell verbessert, bleibt dieser Effekt bei der Verwendung von gemischtsprachigen Finetuning-Strategien wie DEFRITES oder ENDEFRITES sprachübergreifend inkonsistent. Insgesamt gibt es kein klares Muster in der einsprachigen Leistung.  

Sprachübergreifende Auswertung 

Vergleicht man die Modellleistung zwischen den Evaluierungssprachen anhand der durchschnittlichen MT-Bench-X-Ergebnisse, so zeigt sich ein klares Muster: Das sprachübergreifende instruction-tuning liegt vorn. Wenn wir diesen Trend in der folgenden Abbildung genauer untersuchen, in der wir die sprachübergreifende Leistung von Modellen, die auf einsprachigen Datenkompositionen trainiert wurden, von der sprachübergreifenden Leistung von Modellen, die auf mehrsprachigen Daten trainiert wurden, subtrahieren, sehen wir, dass die sprachübergreifende Abstimmung in den meisten Fällen besser abschneidet als einsprachige Ansätze. 

A bar chart titled 'Cross-lingual Improvement of Multilingual Models Compared to Monolingual Models on MT-Bench-X for the 7B Model Size.' The chart shows the percentage improvement in cross-lingual performance for multilingual models relative to monolingual models of the same 7 billion parameter size. Each bar represents a different language, highlighting gains achieved by multilingual models.
Abbildung 8: Sprachübergreifende Verbesserung von mehrsprachigen Modellen im Vergleich zu einsprachigen Modellen auf MT-Bench-X für die Modellgröße 7B. © Fraunhofer IAIS
A bar chart titled 'Cross-lingual Improvement of Multilingual Models Compared to Monolingual Models on MT-Bench-X for the 8x7B Model Size.' The chart depicts the percentage improvement in cross-lingual performance for an ensemble of eight 7-billion-parameter multilingual models compared to individual monolingual models. Each bar corresponds to a specific language, showing the relative performance gains achieved by the multilingual ensemble.
Abbildung 9: Sprachübergreifende Verbesserung von mehrsprachigen Modellen im Vergleich zu einsprachigen Modellen auf MT-Bench-X für die Modellgröße 8x7B. © Fraunhofer IAIS

In der Abbildung wird die Leistung von Modellen, die auf parallelen Sprachmischungen trainiert wurden, mit einsprachigen Datensätzen verglichen.  

Jeder Balken stellt die prozentuale Verbesserung eines mehrsprachigen Instruction-Tunings ((EN)DEFRITES, (EN)DEFRITES-sampled) im Vergleich zu einem einsprachigen Modell (EN, DE, FR, IT, ES) auf der Datensatzvariante (BX: Bactrian-X, BXs: Bactrian-X-small, LX: Lima-X) dar.  

Wichtige Beobachtungen

  1. Mehrsprachiges Tuning steigert die Leistung: Bei 24EU-7B-basierten Modellen steigert die mehrsprachige Abstimmung mit ENDEFRITES-Samples die Leistung von Lima-X und Bactrian-X-small, aber nicht von Bactrian-X. Modelle, die mit DEFRITES-geprüften Daten trainiert wurden, schneiden schlechter ab als ihre einsprachigen Gegenstücke, was wahrscheinlich auf einen geringeren Stichprobenumfang zurückzuführen ist. Mixtral-8x7B-Modelle zeigen mit wenigen Ausnahmen konsistente Gewinne durch paralleles instruction-tuning. 
  2. Die Größe des Datensatzes spielt eine Rolle: Größere Datensätze, wie ENDEFRITES und DEFRITES in voller Größe, verbessern die Leistung in allen Sprachen, insbesondere für Bactrian-X und Lima-X. 
  3. Einbeziehung von Englisch ist vorteilhaft: Die Einbeziehung der dominanten Pre-Trainingssprache (ENDEFRITES vs. DEFRITES) verbessert die Tuning-Ergebnisse. Down-sampled-Varianten schneiden schlechter ab, wahrscheinlich aufgrund eines geringeren Signal-Rausch-Verhältnisses in Bactrian-X. 
  4. Die Modellgröße beeinflusst die Ergebnisse: Größere Modelle wie Mixtral-8x7B erzielen bis auf wenige Ausnahmen durchweg höhere Werte. 

Im Gegensatz dazu sind sorgfältig kuratierte Datensätze wie LIMA-X widerstandsfähiger gegen diesen Leistungsabfall. Die größere Größe von Mixtral-8x7B kompensiert wahrscheinlich das Rauschen in kleineren Datensätzen wie Lima-X, mit maximalen Leistungsgewinnen von bis zu 9,9 % (0,99 Punkte) für Lima-ENDEFRITES gegenüber Lima-IT.  

Insgesamt verbessert das Feintuning auf parallelen Daten das mehrsprachige instruction-tuning für mittelgroße bis große Modelle und übertrifft das einsprachige Training. 

Synthetische vs. kuratierte Trainingsdatensätze 

Um den Einfluss der Art des Datensatzes zu isolieren, haben wir die synthetischen Bactrian-X-Datensätze so verkleinert, dass sie der Größe der von Menschen kuratierten LIMA-X-Datensätze entsprechen, wodurch Bactrian-X-small entstand. Wie in Abbildung 10 dargestellt, übertrafen die synthetischen Bactrian-X-Datensätze LIMA-X bei beiden Datensatzgrößen. Beim Vergleich von LIMA-X mit Modellen, die auf Bactrian-X-small in voller Größe (Abbildung 9) abgestimmt wurden, zeigt sich ein klarer Trend: Die sprachübergreifende Leistung verbessert sich mit parallelem, Bactrian-X-basiertem instruction-tuning. Diese Ergebnisse unterstreichen die Vorteile der Verwendung synthetischer, semantisch paralleler Datensätze für die mehrsprachige Abstimmung.  

Generalisierbarkeit der Superficial Alignment Hypothese 

Wir untersuchten die Superficial Alignment Hypothese, die besagt, dass nur wenige Beispiele pro Instruktionstyp nötig sind, um einem Modell beizubringen, Anweisungen zu befolgen. Unsere Ergebnisse stellen diese Vorstellung jedoch in Frage. Die folgende Abbildung zeigt dies: 

  1. Mid-Size-Modelle erfordern umfangreiche Daten: Modelle der gleichen Größe, die auf Bactrian-X-small abgestimmt sind, übertreffen durchweg diejenigen, die auf den kuratierten LIMA-X-Datensätzen abgestimmt sind. 
  2. Größere Modelle zeigen andere Trends: Bei dem größeren Modell Mixtral-8x7B sehen wir eine hohe Leistung sowohl bei synthetischen als auch bei kuratierten Daten, was darauf hindeutet, dass die Superficial Alignment Hypothese mit größeren Modellen oder fortgeschrittenerem Pre-Training effektiver werden kann.
Figure 10: Comparison of the cross-lingual performance on MT-Bench-X of different model sizes. © Fraunhofer IAIS
Abbildung 10: Vergleich der sprachübergreifenden Leistung auf MT-Bench-X bei unterschiedlichen Modellgrößen. © Fraunhofer IAIS

Ergebnisse der menschlichen Bewertung 

Wir haben die Ergebnisse von Zheng et al. (2023) für das Deutsche erweitert und die Ähnlichkeiten und Unterschiede zwischen menschlicher Bewertung und der Bewertung mit GPT-4 als Richter analysiert. Wir stellen Unterschiede zwischen menschlichen Bewertungen und den von GPT-4 generierten Bewertungen in mehrsprachigen Chatszenarien fest. Weitere Details finden Sie in unserem Paper.  

Key Takeaways 

  • Parallele Datensätze verbessern die sprachenübergreifende Leistung: Unsere Ergebnisse unterstreichen die Vorteile des instruction-tunings auf parallelen Datensätzen und zeigen Verbesserungen von bis zu 9,9% in der Fähigkeit, sprachübergreifenden Anweisungen zu folgen, im Vergleich zu einsprachigen Korpora. 
  • Synthetische Daten schneiden besser ab als kuratierte Daten: Synthetische Bactrian-X-Datensätze, die auf die Größe der kuratierten LIMA-X-Daten heruntergerechnet wurden, zeigten, dass Bactrian-X-small durchweg besser abschneidet als LIMA-X. Dies unterstreicht den klaren Vorteil synthetischer, semantisch paralleler Datensätze zur Verbesserung der sprachübergreifenden Leistung beim mehrsprachigen Tuning. 
  • Generalisierbarkeit der Superficial Alignment-Hypothese: Unsere Ergebnisse zeigen, dass umfangreiche instruction-tuning-Datensätze für mittelgroße mehrsprachige Modelle notwendig sind, aber nicht unbedingt für größere Modelle, was die Verallgemeinerbarkeit der Superficial Alignment Hypothesis in Frage stellt. 
  • Neue Ressourcen veröffentlicht: Wir veröffentlichen die mehrsprachige Trainingsressource Lima-X und die mehrsprachige Evaluierungsressource MT-Bench-X und leisten damit einen wertvollen Beitrag für die NLP-Gemeinschaft. 

Ausblick und Einschränkungen 

Obwohl unsere Studie wertvolle Einblicke in das mehrsprachige instruction-tuning von großen Sprachmodellen (LLMs) liefert, hat sie gewisse Einschränkungen. Wir haben uns darauf konzentriert, mehrsprachige instruction-tuning-Techniken zu erforschen, anstatt nach dem neuesten Stand der Technik zu streben. Außerdem beschränkte sich unsere Forschung auf germanische und Indogermanische Sprachen, so dass die Verallgemeinerbarkeit auf andere Sprachfamilien nicht getestet wurde.  

Zukünftige Arbeiten sollten darauf abzielen, die Methoden des instruction-tuning auf ein breiteres Spektrum von Sprachen auszuweiten, um die globale Leistung mehrsprachiger LLMs zu verbessern. Die Untersuchung mehrsprachiger Multi-Turn-Datensätze könnte tiefere Einblicke in die komplexen Fähigkeiten zur Befolgung von Anweisungen bieten. Darüber hinaus wird die Verbesserung der Kosteneffizienz und Genauigkeit automatischer mehrsprachiger Evaluierungsmethoden der Natural Language Processing (NLP)-Gemeinschaft erheblich zugutekommen. 

Alexander Weber

Alexander Weber ist PhD Kandidat am Fraunhofer IAIS, wo er an der Entwicklung von Sprachmodellen arbeitet.Ihn interessiert vor allem die Weiterentwicklung der Modelle, sodass sie möchlichst nutzbringend im Kunden- oder auch dem eigenen Alltag integrierbar sind. Seine akademische Laufbahn begann mit der Diplomarbeit über generative Sprachmodelle zur Evaluation generierter Rezepte im Rahmen des Diplominformaik Studiums an der Technischen Universität Dresden.

Weitere Blogartikel