{"id":4613,"date":"2021-03-12T05:34:48","date_gmt":"2021-03-12T05:34:48","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/bert\/"},"modified":"2025-11-12T14:55:07","modified_gmt":"2025-11-12T14:55:07","slug":"bert","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/bert\/","title":{"rendered":"BERT: Wie beschreiben Vektoren treffend den Sinngehalt von W\u00f6rtern?"},"content":{"rendered":"\n<p>Im <a href=\"https:\/\/lamarr-institute.org\/de\/kontextabhaengige-einbettungsvektoren\/\" target=\"_blank\" rel=\"noopener\">letzten Blog-Beitrag<\/a> haben wir gelernt, wie kontextintensive Einbettungsvektoren zur Interpretation von Worten mit Hilfe von Assoziationsmodulen berechnet werden k\u00f6nnen. Wir stellten zudem fest, dass eine Prognoseaufgabe ben\u00f6tigt wird, welche das Training der unbekannten Parameter des Modells erm\u00f6glicht. An diesem Punkt setzt das <a href=\"https:\/\/arxiv.org\/abs\/1810.04805\" target=\"_blank\" rel=\"noopener\">BERT<\/a> (Bidirectional Encoder Representations from Transformers) Modell an. BERT wurde 2018 von Jacob Devlin und seinen Kollegen von Google entwickelt und begegnet uns beispielsweise t\u00e4glich <a href=\"https:\/\/www.blog.google\/products\/search\/search-language-understanding-bert\/\" target=\"_blank\" rel=\"noopener\">in Googles Suchmaschine<\/a>. Es dient als Pretraining-Ansatz f\u00fcr verschiedene Probleme in der Verarbeitung und Interpretation von Sprache. Doch wie funktioniert dieses Modell?<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Architektur des BERT Modells<\/span><\/h2>\n\n\n\n<p>F\u00fcr die Vorhersage von W\u00f6rtern innerhalb eines Satzes ersetzt man eine zuf\u00e4llig ausgesuchte Teilmenge der Worte eines Satzes durch den Term \u201e[MASK]\u201c, auch maskierter Token genannt, und fordert, dass jedes ersetzte Wort allein mit Hilfe der entsprechenden Einbettung der letzten Schicht prognostiziert wird. Das bedeutet, dass das Modell anhand der Kontextw\u00f6rter, die den maskierten Token umgeben, versucht vorherzusagen, was das maskierte Wort sein sollte. Genauer gesagt wird dabei die Wahrscheinlichkeit des ersetzten Wortes prognostiziert. Diese Wahrscheinlichkeit soll m\u00f6glichst hoch sein.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Bert-1-1.gif\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25749\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R<br><a href=\"https:\/\/arxiv.org\/abs\/1810.04805\" target=\"_blank\" rel=\"noreferrer noopener\">Architektur des BERT-Modells<\/a>: Das Vortraining des Modells wird mit der Prognose maskierter Worte durchgef\u00fchrt.<\/figcaption><\/figure>\n\n\n\n<p>Als Eingabe werden die Wort- und Positionseinbettungsvektoren des Eingabetextes verwendet. Etwa 15% der Worte werden zuf\u00e4llig ausgew\u00e4hlt und durch \u201e[MASK]\u201c ersetzt. Die Basisversion des Modells hat Einbettungsvektoren der L\u00e4nge 768 und verwendet 12 Ebenen. Die entstehenden Einbettungsvektoren werden durch eine vollverbundene Schicht transformiert und deren Ausgabe wird als n\u00e4chste Einbettungsvektoren f\u00fcr die zugeh\u00f6rigen Worte verwendet. Um die Trainierbarkeit dieser <em>Assoziationsebene<\/em> zu verbessern, werden sogenannte Bypass-Verbindungen benutzt, die Teile der Eingaben an den Assoziationsmodulen vorbeischleusen. Zudem werden durch eine sogenannte <em>Ebenen-Normalisierung<\/em> der Mittelwert und die Streuung der Einbettungsvektoren auf 0 beziehungsweise 1 normalisiert. Die berechneten Einbettungsvektoren einer Assoziationsebene werden nun als Eingaben f\u00fcr eine weitere Assoziationsebene genutzt, dieser Vorgang wiederholt sich. Das BERT-Basis-Modell verwendet insgesamt 12 \u00fcbereinandergestapelte Assoziationsebenen.<\/p>\n\n\n\n<p>Aus den finalen Einbettungsvektoren der letzten Schicht werden dann die Wahrscheinlichkeiten der maskierten Ausgabeworte prognostiziert. Da allein der Einbettungsvektor des maskierten Wortes als Eingabe zur Prognose der Wortwahrscheinlichkeiten benutzt wird, ist das Modell gezwungen, m\u00f6glichst viele Informationen \u00fcber dieses Wort in dem Vektor zu kodieren. Dabei ist BERT in der Lage, nicht nur Worte vor dem maskierten Wort als Kontext zu verwenden, sondern auch dahinterliegende Worte. Es ergibt sich ein sehr aussagekr\u00e4ftiger kontextabh\u00e4ngiger Einbettungsvektor f\u00fcr das jeweilige maskierte Wort.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Eigenschaften von BERT<\/h2>\n\n\n\n<p>Das BERT-Basis-Modell hat mit zw\u00f6lf Ebenen insgesamt 110 Millionen Parameter und BERT-Large mit 24 Ebenen 340 Millionen Parameter. Zus\u00e4tzlich zur Prognose der maskierten Worte musste BERT auch vorhersagen, ob der n\u00e4chste Satz ein zuf\u00e4llig ausgesuchter Satz ist oder der tats\u00e4chliche Nachfolgesatz. Allerdings hatte diese Aufgabe keine gro\u00dfen Auswirkungen auf die Prognosef\u00e4higkeiten des Modells.<\/p>\n\n\n\n<p>Zum Training von BERT wurden die englische Wikipedia und ein Buchkorpus mit 3,3 Milliarden W\u00f6rtern verwendet. Diese W\u00f6rter wurden durch insgesamt 30.000 h\u00e4ufige W\u00f6rter und Wortteile dargestellt. Seltene W\u00f6rter werden dabei aus Wortteilen zusammengesetzt. Es wurden keine Annotationen der Texte durch Menschen ben\u00f6tigt, das Training im maschinellen Lernprozess ist also <a href=\"https:\/\/lamarr-institute.org\/de\/blog\/welche-arten-von-maschinellem-lernen-gibt-es\/\" target=\"_blank\" rel=\"noreferrer noopener\">un\u00fcberwacht<\/a>. Es konnten Sequenzen von maximal 512 Worten betrachtet werden. Das Training verwendet das <a href=\"https:\/\/lamarr-institute.org\/de\/blog\/optimierung-im-maschinellen-lernen\/\" target=\"_blank\" rel=\"noreferrer noopener\">Gradientenabstiegsverfahren<\/a> und dauerte auf 64 besonders m\u00e4chtigen Grafikprozessoren vier Tage.&nbsp; Dabei kann man \u201er\u00fcckwirkend\u201c auch die Einbettungsvektoren in der Eingabe f\u00fcr alle Worte und Wortteile bestimmen.<\/p>\n\n\n\n<p>Es zeigt sich, dass BERT exzellente Ergebnisse f\u00fcr die Prognose der maskierten Worte erzielt und die zus\u00e4tzlich eingebundenen Ebenen die Genauigkeit stark erh\u00f6hen. Maskiert man beispielsweise in den Trainingsdaten 15% der Worte, so ist BERT in der Lage, mit einer Genauigkeit von <a href=\"https:\/\/arxiv.org\/abs\/1910.03806\" target=\"_blank\" rel=\"noreferrer noopener\">45,9% die urspr\u00fcnglichen Worte<\/a> (beziehungsweise Wortteile) zu prognostizieren, obwohl in vielen F\u00e4llen mehrere Werte an einer Position plausibel w\u00e4ren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">BERT erlaubt die Darstellung der St\u00e4rke der Assoziationen zwischen Worten<\/h2>\n\n\n\n<p>Es ist m\u00f6glich, f\u00fcr das trainierte Modell die St\u00e4rke der Assoziationen zwischen den einzelnen Worten grafisch darzustellen. Diese Assoziationen h\u00e4ngen nat\u00fcrlich von den Eingabeworten und der Zusammensetzung der einzelnen Einbettungsvektoren ab. Jedes Assoziationsmodul betrachtet andere Aspekte und stellt Beziehungen zwischen unterschiedlichen Worten her.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Assoziationsmodul2-1-1-1024x415.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24614\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Christopher Manning<br>Darstellungen der Assoziationen&nbsp;zwischen den Worten in unterschiedlichen Assoziationsmodulen.<\/figcaption><\/figure>\n\n\n\n<p>Die vorstehende Grafik zeigt die Assoziationen von zwei Modulen in der Ebene 8 f\u00fcr unterschiedliche Texte. Dabei symbolisiert \u201e[CLS]\u201c den Beginn des Textes und \u201e[SEP]\u201c das Ende eines Satzes. Die beiden linken Grafiken enthalten die Assoziation zwischen einem direkten Objekt und einem Verb (rote Linien). In den rechten Grafiken zeigen die roten Linien die Assoziation von Adjektiven und Artikeln mit dem Nomen. W\u00e4hrend des Trainings ergab es sich, dass diese Assoziationsmodule sich auf die Darstellung syntaktischer Zusammenh\u00e4nge konzentrierten, w\u00e4hrend andere Assoziationsmodule komplement\u00e4re Aufgaben \u00fcbernahmen. Die Zuordnung der Darstellungsaufgaben zu den Assoziationsmodulen ergibt sich dabei aus den zuf\u00e4llig gew\u00e4hlten Anfangsparametern.<\/p>\n\n\n\n<p>Die nachfolgende Grafik zeigt f\u00fcr den Text \u201e[CLS] the cat sat on the mat [SEP] the cat lay on the rug [SEP]\u201c die Struktur aller Assoziationsmodule der zw\u00f6lf Ebenen. Dabei wird deutlich, dass die Sondersymbole \u201e[CLS]\u201c und \u201e[SEP]\u201c in vielen Assoziationsmodulen eine gro\u00dfe Rolle spielen. Andererseits gibt es eine Reihe von Assoziationen mit sehr unterschiedlicher Gestalt, die spezielle Beziehungen zwischen den Worten des Eingabetextes herstellen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Assoziationsmodul2-2-1-1024x528.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24616\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Jesse Vig <br>\u00dcberblick \u00fcber alle Assoziationen der unterschiedlichen Assoziationsmodule f\u00fcr den Satz aus der dritten Abbildung<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">BERT erlaubt eine zuverl\u00e4ssige Interpretation von Wortbedeutungen<\/h2>\n\n\n\n<p>Beim Training hat BERT die Aufgabe, Fragen der Art \u201eDie Bl\u00e4tter an den B\u00e4umen sind [MASK]\u201c zu beantworten. BERT muss daher neben den syntaktischen Regeln der Sprache auch inhaltliche Zusammenh\u00e4nge erfassen.\u00a0 Es hat sich gezeigt, dass das BERT-Model und dessen Weiterentwicklungen sehr viele Kenntnisse \u00fcber Sprache und deren Bedeutung durch das un\u00fcberwachte Training erwerben k\u00f6nnen. Es ist m\u00f6glich, diese Modelle durch ein \u00fcberwachtes Nachtraining (Finetuning) mit relativ wenigen Trainingsdaten an spezielle semantische Aufgaben anzupassen. Die erzielbare Prognosegenauigkeit durch dieses <em>Transferlernen<\/em> ist wesentlich h\u00f6her als bei dem bisherigen Vorgehen, da das BERT-Modell sprachliche Muster viel besser interpretieren kann. Dies wird in der Beitrags-Reihe \u00fcber Sprachverst\u00e4ndnis durch Transferlernen gezeigt. Die <a href=\"https:\/\/www.springer.com\/de\/book\/9783658302108\" target=\"_blank\" rel=\"noopener\">Monographie<\/a> bietet einen breiten, leicht verst\u00e4ndlichen \u00dcberblick \u00fcber Transferlernen und tiefe Neuronale Netze.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Was man sich \u00fcber BERT merken sollte<\/h2>\n\n\n\n<p>Ausgangspunkt f\u00fcr die Konstruktion des BERT-Modells war die Beobachtung, dass die Schreibweise von Worten unabh\u00e4ngig von ihrer Bedeutung ist. Da die Schreibweise wenig \u00fcber die Bedeutung des Wortes aussagt, wird der Sinngehalt von Worten durch <strong>Einbettungsvektoren<\/strong> repr\u00e4sentiert. Weil die Wortbedeutung von den umgebenden Worten abh\u00e4ngt, sind <strong>kontextabh\u00e4ngige<\/strong> Einbettungen erforderlich. Sie k\u00f6nnen zum Beispiel durch eine Reihe von Assoziationsmodulen bestimmt werden.<\/p>\n\n\n\n<p>Das BERT-Modell besteht aus einer Reihe von Ebenen, in denen unterschiedliche <strong>Assoziationsmodule<\/strong> parallel berechnet und aussagekr\u00e4ftige Einbettungsvektoren ausgegeben werden. Zur Prognose von maskierten Worten werden die Parameter dieser Assoziationsmodule so optimiert, dass die maskierten Worte m\u00f6glichst gut prognostiziert werden k\u00f6nnen. Hierdurch wird die <strong>Gesamtheit des Textes<\/strong> f\u00fcr die Wortprognose ausgewertet und das Modell erfasst sehr viele syntaktische und semantische Zusammenh\u00e4nge nat\u00fcrlicher Sprache. Durch Finetuning ist es m\u00f6glich, mit diesem Modell viele Probleme der Interpretation nat\u00fcrlicher Sprache zu l\u00f6sen. &nbsp;Das Modell zeigt, dass ein Sprachmodell, das bidirektional trainiert wird, die Bedeutung der Worte besser erschlie\u00dfen kann als wenn man nur die vorherigen Worte als Kontext verwendet. Die Anwendungsfelder sind vielseitig in der heutigen Zeit und werden in kommenden Blogbeitr\u00e4gen vorgestellt.<\/p>\n\n\n\n<p><strong>Mehr Informationen in den zugeh\u00f6rigen Publikationen:<\/strong><\/p>\n\n\n\n<p>Devlin, J. et al. 2018: <strong>Bert: Pre-training of deep bidirectional transformers for language understanding<\/strong>. arXiv preprint arXiv:1810.04805, <a href=\"https:\/\/arxiv.org\/abs\/1810.04805\" target=\"_blank\" rel=\"noreferrer noopener\">PDF<\/a>.<\/p>\n\n\n\n<p>Manning, C. 2019. <strong>Emergent linguistic structure in deep contextual neural word representations<\/strong>. Vortrag auf dem Workshop on Theory of Deep Learning: Where next?, <a href=\"https:\/\/www.youtube.com\/watch?v=5jSC8bjo-dI\" target=\"_blank\" rel=\"noreferrer noopener\">Link<\/a>.<\/p>\n\n\n\n<p>Paa\u00df, G. und Hecker, D. 2020:<strong> K\u00fcnstliche Intelligenz &#8212; Was steckt hinter der Technologie der Zukunft?<\/strong> Springer Nature, Wiesbaden, <a href=\"https:\/\/www.springer.com\/de\/book\/9783658302108\" target=\"_blank\" rel=\"noreferrer noopener\">Link<\/a>.<\/p>\n\n\n\n<p>R\u00f6nnqvist, S. et al. 2019: <strong>Is multilingual BERT fluent in language generation?<\/strong> arXiv preprint arXiv:1910.03806, <a href=\"https:\/\/arxiv.org\/abs\/1910.03806\" target=\"_blank\" rel=\"noreferrer noopener\">PDF<\/a>.<\/p>\n\n\n\n<p>Vig, J. 2019: <strong>BERTVIZ: A Tool for Visualizing Multihead Self-Attention in the BERT Model<\/strong>. ICLR 2019 Debugging Machine Learning Workshop, <a href=\"https:\/\/debug-ml-iclr2019.github.io\/cameraready\/DebugML-19_paper_2.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">PDF.<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>BERT erm\u00f6glicht es viele Probleme der Interpretation nat\u00fcrlicher Sprache zu l\u00f6sen. Dieser Beitrag erl\u00e4utert detailliert die Architektur, die Eigenschaften und Funktionsweise des von Google entwickelten Modells.<\/p>\n","protected":false},"author":9,"featured_media":3937,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,396,1418],"blog-tag":[1452,1482,1616],"class_list":["post-4613","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-forschung","blog-category-sprachtechnologien","blog-tag-bert-de","blog-tag-einbettungsvektoren","blog-tag-transferlernen"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4613","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4613\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/3937"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4613"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4613"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4613"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}