{"id":4630,"date":"2021-04-14T07:00:56","date_gmt":"2021-04-14T07:00:56","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/dedicom-matrix-faktorisierung\/"},"modified":"2025-11-12T14:55:07","modified_gmt":"2025-11-12T14:55:07","slug":"dedicom-matrix-faktorisierung","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/dedicom-matrix-faktorisierung\/","title":{"rendered":"Interpretierbare Wort-Repr\u00e4sentationen und Themenanalyse mittels Matrix-Faktorisierung"},"content":{"rendered":"\n<p>Word-Embeddings spielen eine zentrale Rolle in der maschinellen Analyse von Texten. Ein zentrales Problem der computergesteuerten Analyse von Textdaten ist die Frage, wie man W\u00f6rter, die aus reinen Zeichenfolgen bestehen, f\u00fcr Systeme lesbar macht, die meist auf Basis von Zahlenvektoren arbeiten. Zus\u00e4tzlich besch\u00e4ftigen sich weitere Forschungsgebiete, so auch im Kompetenzzentrum <a href=\"http:\/\/www.ml2r.de\" target=\"_blank\" rel=\"noopener\">ML2R<\/a>, mit der wichtigen Fragestellung zur Interpretierbarkeit der Wort-Repr\u00e4sentationen. Doch bevor wir unseren entwickelten Ansatz vorstellen, erkl\u00e4ren wir einleitend, wie Textdaten im System \u00fcberhaupt lesbar gemacht werden.<\/p>\n\n\n\n<p>Ein erster Ansatz zur L\u00f6sung dieser Herausforderung bilden dabei sogenannte <strong>Word-Embeddings<\/strong>, also Vektor-Repr\u00e4sentationen f\u00fcr W\u00f6rter. Word-Embeddings ordnen jedem Wort in einem gegebenen Vokabular einen Vektor einer festgelegten Gr\u00f6\u00dfe zu, nachdem diese Vektoren auf Trainingsdaten berechnet wurden. Wie n\u00fctzlich diese Repr\u00e4sentationen sind, h\u00e4ngt dabei von dem genutzten Algorithmus, den Trainingsdaten, dem Vokabular und der Gr\u00f6\u00dfe der Vektoren ab. Sobald Word-Embeddings gut trainiert wurden, zeigen sie die interessante Eigenschaft, dass semantische Zusammenh\u00e4nge zwischen W\u00f6rtern auf geometrische Zusammenh\u00e4nge zwischen den jeweiligen Vektoren \u00fcbertragen werden. Ein ber\u00fchmtes Beispiel daf\u00fcr l\u00e4sst sich mit <a href=\"https:\/\/code.google.com\/archive\/p\/word2vec\/\" target=\"_blank\" rel=\"noopener\">word2vec Wort-Embeddings<\/a> zeigen:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/word2vec-Wort-Embeddings.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24654\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Semantisch verh\u00e4lt sich \u201cK\u00f6nig\u201d zu \u201cMann\u201d wie \u201cK\u00f6nigin\u201d zu \u201cFrau\u201d. Diese \u00c4hnlichkeit spiegelt sich auch im gelernten Word-Embedding Vektorraum wider.<\/figcaption><\/figure>\n\n\n\n<p>Subtrahiert man den Vektor f\u00fcr &#8218;Mann&#8216; vom Ausgangsvektor &#8218;K\u00f6nig&#8216; und addiert daf\u00fcr den Vektor f\u00fcr &#8218;Frau&#8216;, erh\u00e4lt man einen Vektor, der dem Vektor &#8218;K\u00f6nigin&#8216; sehr \u00e4hnlich ist. Diese Beziehungen zwischen Vektoren erm\u00f6glichen es nun, Texte mit Hilfe von selbstlernenden Systemen zu analysieren und W\u00f6rter und ganze Paragrafen zu klassifizieren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Vor- und Nachteile der Word-Embedding Modelle<\/h2>\n\n\n\n<p>Die bekanntesten Word-Embedding Modelle (wie <a href=\"https:\/\/www.aclweb.org\/anthology\/D14-1162.pdf\" target=\"_blank\" rel=\"noopener\">GloVe<\/a> und <a href=\"https:\/\/arxiv.org\/abs\/1301.3781\" target=\"_blank\" rel=\"noopener\">word2vec<\/a>) beruhen dabei auf der Matrix-Faktorisierung. F\u00fcr ein gegebenes Vokabular der Gr\u00f6\u00dfe [latex]n[\/latex] wird dabei aus Trainingsdaten eine Eingabematrix der Gr\u00f6\u00dfe [latex]ntimes n[\/latex] erstellt, die Zusammenh\u00e4nge zwischen W\u00f6rtern im gesamten Textkorpus festh\u00e4lt. In der Eingabematrix wird gez\u00e4hlt, wie oft ein Wort im Zusammenhang mit anderen W\u00f6rtern vorkommt (zum Beispiel im gleichen Satz oder in einer festgelegten Umgebung), dies wird auch Kookkurrenz genannt. Anschlie\u00dfend wird diese Matrix in Matrizen von kleinerer Dimensionalit\u00e4t faktorisiert, sodass die Informationen aus der Eingabematrix in kleinere Dimensionen komprimiert werden. Dadurch m\u00fcssen Beziehungen zwischen W\u00f6rtern in die kleineren Repr\u00e4sentationen miteinflie\u00dfen. Somit definiert sich die Bedeutung eines Wortes aus den W\u00f6rtern, die oft in seiner Umgebung vorkommen &#8211; Passend zu dem bekannten Zitat des bekannte Linguisten John Rupert Firth:&nbsp; &#8222;You shall know a word by the company it keeps.&#8220; (1957)<\/p>\n\n\n\n<p>Obwohl Word-Embeddings f\u00fcr viele Aufgaben sehr n\u00fctzlich sind, weisen sie auch deutliche Nachteile auf: Um die gesamte Information der Trainingsdaten zu repr\u00e4sentieren, m\u00fcssen die Vektoren eine bestimmte Gr\u00f6\u00dfe haben. G\u00e4ngige Modelle erzeugen Vektoren von einer L\u00e4nge zwischen 50 und 300 Zahlen. Das bedeutet, dass ein Wort durch bis zu 300 Zahlen repr\u00e4sentiert wird. Es ist dabei nicht nachvollziehbar, ob einzelne Zahlen verschiedene Eigenschaften des Wortes darstellen oder ob nur die geometrischen Beziehungen der kompletten Vektoren die Repr\u00e4sentation bestimmen.<\/p>\n\n\n\n<p>Durch die fehlende Nachvollziehbarkeit ist es kaum m\u00f6glich, ein Modell, das auf Basis dieser Vektoren Text klassifiziert, genauer zu untersuchen. &nbsp;Wird ein Wort falsch klassifiziert, l\u00e4sst sich der Fehler eventuell auf einzelne Dimensionen der Eingangsdaten (Wortvektoren) zur\u00fcckf\u00fchren. Jedoch sind die einzelnen Dimensionen nicht ohne weiteres interpretierbar, wodurch sich die Analyse nur schwer fortf\u00fchren l\u00e4sst.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Interpretierbare DEDICOM Faktorisierung<\/h2>\n\n\n\n<p>Deshalb wurde in einer aktuellen Studie von ML2R Wissenschaftler*innen ein Ansatz zur verbesserten Interpretierbarkeit entwickelt: Wortvektoren durch DEDICOM Matrix Faktorisierung. DEDICOM steht f\u00fcr Decomposition into Directed Components und wurde in der Forschung bereits zur Untersuchung von sozialen Netzwerken, E-Mail-Verkehr und Nutzungsverhalten in Computerspielen genutzt. Die Anwendung auf Wortvektoren beschreibt jedoch einen neuen Ansatz.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Matrix_Faktorisierung_ML2R-1-1024x477.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24656\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Der DEDICOM Algorithmus faktorisiert eine quadratische Eingabematrix   in eine Gewichtsmatrix   und eine Zusammenhangsmatrix  .  <\/figcaption><\/figure>\n\n\n\n<p>Doch was ist das Besondere an diesem Ansatz? DEDICOM stellt eine spezielle Art der Faktorisierung einer quadratischen Matrix dar: Eine Eingabematrix $S$ der Gr\u00f6\u00dfe $n times n$ wird in eine Gewichtsmatrix $A$ der Gr\u00f6\u00dfe $n times k$ und eine Zusammenhangsmatrix $R$ der Gr\u00f6\u00dfe $k times k$ geteilt, sodass $S=ARA^T$. Die <strong>Eingabematrix $S$, <\/strong>wie in anderen Word-Embedding Algorithmen, bildet eine angepasste Kookkurrenz-Matrix des Trainingskorpus mit der Vokabulargr\u00f6\u00dfe $n$.<\/p>\n\n\n\n<p>Die <strong>Faktormatrix $A$<\/strong> gibt dann $k$-dimensionale Wortvektoren aus, wobei im Gegensatz zu anderen Algorithmen $k$ deutlich kleiner gew\u00e4hlt wird. Sortiert man die berechneten Wortvektoren nun absteigend nach ihren einzelnen Komponenten, erh\u00e4lt man Gruppen von W\u00f6rtern, die thematisch zusammengeh\u00f6ren. Man hat so die wichtigsten Themen des Ausgangstexts extrahiert und kann sie durch die dazugeh\u00f6rigen W\u00f6rter identifizieren. Zus\u00e4tzliche Restriktionen auf dem Faktorisierungsalgorithmus lassen jeden Wortvektor eine Wahrscheinlichkeitsverteilung \u00fcber die Themen repr\u00e4sentieren. Das hei\u00dft, der dritte Eintrag eines Wortvektors gibt an, mit welcher Wahrscheinlichkeit das Wort dem dritten Thema zuzuordnen ist.<\/p>\n\n\n\n<p><strong>Matrix $R$<\/strong> zeigt an, welche Themen besonders oft zusammen auftreten. W\u00e4hlen wir beispielsweise 10 f\u00fcr $k$, gibt die Matrix $R$ dann den Zusammenhang zwischen den 10 Dimensionen (Themen) an: Ein gro\u00dfer Wert in Zeile 3 und Spalte 6 bedeutet, dass W\u00f6rter mit viel Gewicht in dem 3-ten und 6-ten Eintrag ihres Vektors oft zusammen im Text auftreten. Dadurch lassen sich die einzelnen Dimensionen als thematische Komponenten des Textkorpus auffassen.<\/p>\n\n\n\n<p><strong>$ARA^T$<\/strong> repr\u00e4sentiert die rekonstruierte $S$ Matrix. Je \u00e4hnlicher <strong>$ARA^T$ <\/strong>zu<strong> $S$<\/strong>, desto genauer wurden die Informationen der Eingangsmatrix extrahiert.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">DEDICOM Hands-On Beispiel<\/h2>\n\n\n\n<p>Um die Vorteile der DEDICOM Faktorisierung in der Praxis genauer darzustellen, gehen wir im Folgenden n\u00e4her auf ein ausgew\u00e4hltes Beispiel unserer Studie ein. Die Tabelle zeigt die mit DEDICOM extrahierten Themen eines k\u00fcnstlichen Textkorpus, der aus den englischen Wikipedia Artikeln \u201cJohnny Depp\u201d, \u201cBee\u201d und \u201cSoccer\u201d besteht.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Tabelle-1-1024x429.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24658\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Absteigend sortierte Wortvektoren per Dimension. Anhand der aufgelisteten Vektoren lassen sich die einzelnen Dimensionen als Themen interpretieren.<\/figcaption><\/figure>\n\n\n\n<p>Hierbei l\u00e4sst sich schnell erkennen, dass sich Themen 1 und 4 eindeutig dem \u201cSoccer\u201d Artikel zuordnen lassen. W\u00e4hrend Thema 1 den Fokus auf die Spielmechanik legt, bildet Thema 4 den professionellen beziehungsweise strukturellen Aspekt des Fu\u00dfballs ab. Schauen wir genau auf das Thema 6, zeigt sich, dass sehr spezifisch das schwierige Verh\u00e4ltnis zwischen Schauspieler Johnny Depp und seiner Ex-Ehefrau Amber Heard aufgegriffen wird.<\/p>\n\n\n\n<p>Nun f\u00fchren wir die Analyse weitergehend fort: In Tabelle 2 analysieren wir den gelernten Vektorraum, indem wir f\u00fcr das wichtigste Wort eines jeden Themas die vier \u00e4hnlichsten W\u00f6rter ermitteln. \u00c4hnlichkeit wird hier definiert als die Kosinus-\u00c4hnlichkeit zwischen zwei Wortvektoren. Es l\u00e4sst sich erkennen, dass unser DEDICOM Algorithmus, \u00e4hnlich wie word2vec und GloVe, die semantische \u00c4hnlichkeit zwischen W\u00f6rtern wie \u201cfilm\u201d und \u201cstarred\u201d im Thema 2 auch im gelernten Vektorraum enkodiert.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Tabelle2-1.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24660\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Absteigend sortierte Wortvektoren per Dimension. Anhand der aufgelisteten Vektoren lassen sich die einzelnen Dimensionen als Themen interpretieren.<\/figcaption><\/figure>\n\n\n\n<p>Dar\u00fcber hinaus erm\u00f6glicht DEDICOM die gleichzeitige Extraktion von relevanten Themen und die Generierung von interpretierbaren Wortvektoren aus dem gegebenen Textkorpus: Jeder Eintrag im Vektor zeigt an, mit welcher Wahrscheinlichkeit sich das zugeh\u00f6rige Wort dem entsprechenden Thema des Eintrags zuordnen l\u00e4sst. Die auf unseren interpretierbaren Wortvektoren aufbauenden Machine-Learning Modelle lassen sich somit einfacher analysieren. K\u00f6nnen Fehler in der Klassifizierung auf einzelne Dimensionen der Eingangsdaten zur\u00fcckgef\u00fchrt werden, ist eine thematische Interpretation der Klassifizierung m\u00f6glich.<\/p>\n\n\n\n<p><strong>Wir fassen zusammen<\/strong>: Der DEDICOM Algorithmus eignet sich f\u00fcr die gleichzeitige Extraktion von Themen und die Repr\u00e4sentation von W\u00f6rtern durch interpretierbare Wortvektoren. Letztere k\u00f6nnen ebenfalls f\u00fcr weitere Machine-Learning-Modelle verwendet werden, um deren Erkl\u00e4rbarkeit zu f\u00f6rdern.<\/p>\n\n\n\n<p>Mehr Informationen zum Algorithmus, ausf\u00fchrliche Experimente und Vergleiche mit anderen Methoden in der zugeh\u00f6rigen Publikation:<\/p>\n\n\n\n<p><strong>Interpretable Topic Extraction and Word Embedding Learning using row-stochastic DEDICOM<\/strong><br>L. Hillebrand, D. Biesner, C. Bauckhage, R. Sifa. CD-MAKE, 2020, <a href=\"https:\/\/link.springer.com\/chapter\/10.1007%2F978-3-030-57321-8_22\" target=\"_blank\" rel=\"noopener\">Link<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Word-Embeddings bilden den Grundbaustein f\u00fcr die algorithmische Analyse und Verarbeitung von Texten, wie Textklassifizierung, \u00dcbersetzung und Textgenerierung. Interpretierbare Vektorrepr\u00e4sentation von W\u00f6rtern kodieren semantische Zusammenh\u00e4nge verst\u00e4ndlich und erm\u00f6glichen Analyse von wort-\u00fcbergreifenden Themen.<\/p>\n","protected":false},"author":9,"featured_media":4639,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,396,1418],"blog-tag":[1482,1484,1559],"class_list":["post-4630","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-forschung","blog-category-sprachtechnologien","blog-tag-einbettungsvektoren","blog-tag-erklaerbare-ki-xai","blog-tag-nlp-de"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4630","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4630\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4639"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4630"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4630"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4630"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}