{"id":4787,"date":"2023-04-19T13:09:00","date_gmt":"2023-04-19T13:09:00","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/lda-dimensionsreduktion\/"},"modified":"2025-11-12T14:51:36","modified_gmt":"2025-11-12T14:51:36","slug":"lda-dimensionsreduktion","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/lda-dimensionsreduktion\/","title":{"rendered":"Die Lineare Diskriminanzanalyse: Eine Methode zur Dimensionsreduktion von klassifizierbaren Datens\u00e4tzen"},"content":{"rendered":"\n<p>Die Digitalisierung hat in den letzten Dekaden eine immer gr\u00f6\u00dfere Bedeutung erlangt und ver\u00e4ndert nahezu alle Bereiche unseres Lebens. Einer der Bereiche, in denen die Digitalisierung besonders gro\u00dfe Fortschritte erm\u00f6glicht hat, ist das Maschinelle Lernen (ML). Durch die Bereitstellung von immer gr\u00f6\u00dferen Datenmengen und immer mehr Rechenleistung k\u00f6nnen heute komplexe Algorithmen angewendet werden. Jedoch gehen mit gr\u00f6\u00dferen Datenmengen auch Herausforderungen einher, zum Beispiel bei der Verarbeitung. Eine zentrale Herausforderung bei der Verarbeitung ist hier die Reduktion der Dimensionalit\u00e4t. Eine M\u00f6glichkeit der Dimensionsreduktion ist die Linear Discriminant Analysis, zu Deutsch: Lineare Diskriminanzanalyse (LDA). Im Folgenden erfahren Sie, wie LDA als Werkzeug zur Dimensionsreduktion von gro\u00dfen, hochdimensionalen Daten eingesetzt werden kann und warum die Dimensionsreduktion ein wichtiger Bestandteil des Maschinellen Lernens ist, um den Curse of Dimensionality zu \u00fcberwinden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Was ist Dimensionsreduktion?<\/h2>\n\n\n\n<p>Die Dimensionsreduktion ist ein Verfahren, bei dem die Anzahl der Merkmale, auch genannt die Dimensionen eines Datensatzes, reduziert wird. Dabei ist das Ziel, die Komplexit\u00e4t des Datensatzes zu verringern und somit eine bessere Analyse und Interpretation der Daten zu erm\u00f6glichen. Ein wichtiger Grund f\u00fcr die Anwendung von Dimensionsreduktion ist der Curse of Dimensionality (zu Deutsch: Fluch der Dimensionalit\u00e4t). Dieser besagt, dass je mehr Dimensionen ein Datensatz hat, desto mehr Datenpunkte braucht es, um verl\u00e4ssliche Aussagen \u00fcber Muster und Zusammenh\u00e4nge in den Daten treffen zu k\u00f6nnen.<\/p>\n\n\n\n<p>Durch die Anwendung von Dimensionsreduktionstechniken wie der&nbsp;<a href=\"https:\/\/lamarr-institute.org\/de\/dimensionsreduktion-pca\/\" target=\"_blank\" rel=\"noreferrer noopener\">Principal Component Analysis (PCA)<\/a>&nbsp;oder der Linear Discriminant Analysis (LDA) kann die Anzahl der Dimensionen in einem Datensatz reduziert werden. Hierbei werden neue Merkmale geschaffen, die aus einer Kombination der urspr\u00fcnglichen Merkmale entstehen. Dabei werden jedoch nur die wichtigsten Informationen in den neuen Merkmalen ber\u00fccksichtigt, um eine m\u00f6glichst genaue Darstellung der Daten zu erhalten (erfahren Sie in diesem Beitrag mehr dar\u00fcber,&nbsp;<a href=\"https:\/\/lamarr-institute.org\/de\/daten-kuenstliche-intelligenz\/\">wie viele Daten K\u00fcnstliche Intelligenz wirklich braucht<\/a>).<\/p>\n\n\n\n<p>Dimensionsreduktion ist somit ein wichtiger Bestandteil des Maschinellen Lernens, um den&nbsp;<a href=\"https:\/\/de.wikipedia.org\/wiki\/Fluch_der_Dimensionalit%C3%A4t\" target=\"_blank\" rel=\"noreferrer noopener\">Curse of Dimensionality<\/a>&nbsp;zu \u00fcberwinden und komplexe Datens\u00e4tze effektiver analysieren und interpretieren zu k\u00f6nnen. Welche Merkmale der Daten dabei wichtig sind, entscheidet sich durch den ausgew\u00e4hlten Algorithmus. Ein Algorithmus k\u00f6nnte zum Beispiel das Erkennen der Merkmale, in denen sich die Daten am meisten unterscheiden, als Ziel haben. Auch die Art der Daten, die uns vorliegen, bestimmt, neben dem Ziel unserer Dimensionsreduktion, ebenfalls, welche Algorithmen sich am besten eignen. Man unterscheidet dabei zwischen klassifizierbaren und nicht-klassifizierbaren Daten. Letztere sind Datens\u00e4tze, deren Datenpunkte nicht in verschiedene Kategorien oder Klassen gruppiert sind. Oftmals ist das Ziel von Dimensionsreduktionsverfahren, die auf nicht-klassifizierbaren Daten arbeiten, eine Analyse der Struktur oder Zusammensetzung des Datensatzes.<\/p>\n\n\n\n<p>Klassifizierbare Datens\u00e4tze beinhalten stattdessen Datenpunkte, die verschiedenen Klassen zugeordnet sind. Zwei Datenpunkte aus diesen Datens\u00e4tzen k\u00f6nnen also nicht nur durch ihre Merkmale verglichen werden, sondern auch durch ihre Label, welche die Informationen \u00fcber die zugeordneten Klassen enthalten. Ein Ziel eines Algorithmus, der auf Basis von klassifizierbaren Daten arbeitet, k\u00f6nnte zum Beispiel sein, die Datenpunkte verschiedener Klassen zu separieren (mehr zum Thema Klassifikation lesen Sie im Grundlagenbeitrag&nbsp;<a href=\"https:\/\/lamarr-institute.org\/de\/ml-klassifikation\/\" target=\"_blank\" rel=\"noreferrer noopener\">Klassifikation im Maschinellen Lernen<\/a>).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Merkmale ausw\u00e4hlen oder kombinieren?<\/h2>\n\n\n\n<p>Die Vorgehensweisen der Dimensionsreduktionsverfahren unterscheidet man in zwei Arten. Dabei ist es wichtig, wie die resultierenden Merkmale der Dimensionsreduktion aussehen.<\/p>\n\n\n\n<p>Bei der sogenannten Merkmalsauswahl wird die Reduktion durch Weglassen von unwichtigen Merkmalen durchgef\u00fchrt. Daf\u00fcr m\u00fcssen die Merkmale im Vorhinein durch einen Algorithmus bewertet werden, sodass die unwichtigeren Merkmale nicht in den reduzierten Datensatz \u00fcbernommen werden. Algorithmen zur Merkmalsprojektion reduzieren den Datensatz durch die Kombination mehrerer Merkmale. Das Ziel der LDA ist es, die Merkmale so zu reduzieren, dass die reduzierten Datenpunkte optimal durch eine Gerade trennbar sind.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"307\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb1_iris_blogbeitrag_transparent_DE_dunkel-1024x307.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-17331\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb1_iris_blogbeitrag_transparent_DE_dunkel-1024x307.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb1_iris_blogbeitrag_transparent_DE_dunkel-300x90.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb1_iris_blogbeitrag_transparent_DE_dunkel-768x230.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb1_iris_blogbeitrag_transparent_DE_dunkel-1536x461.png 1536w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb1_iris_blogbeitrag_transparent_DE_dunkel-2048x614.png 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Fabian Gawellek <br>Abbildung 1: Am Beispiel eines Datensatzes \u00fcber die Iris, eine Pflanzengattung innerhalb der Familie der Schwertliliengew\u00e4chse, wird der Unterschied zwischen einem Algorithmus zur Merkmalsauswahl und Merkmalsprojektion (LDA) aufgezeigt.<\/figcaption><\/figure>\n\n\n\n<p>Abbildung 1 zeigt einen Datensatz mit Datenpunkten von drei verschiedenen Schwertlilienarten und die Ergebnisse der Dimensionsreduktion durch die Merkmalsauswahl sowie durch die Merkmalsprojektion. Die Datenpunkte aus dem Iris-Datensatz werden durch zwei Merkmale beschrieben, die Bl\u00fctenblattl\u00e4nge und die Kelchblattl\u00e4nge und liegen in einer zweidimensionalen Fl\u00e4che vor.<\/p>\n\n\n\n<p>Bei der Merkmalsauswahl entscheiden wir uns f\u00fcr das Merkmal Bl\u00fctenblattl\u00e4nge. Die Informationen \u00fcber die Kelchblattl\u00e4nge gehen dabei verloren und unsere Daten werden nur noch durch ein Merkmal beschrieben. Sie liegen in einer eindimensionalen Geraden vor. Man kann au\u00dferdem erkennen, dass die Auswahl des Merkmals \u201eKelchblattl\u00e4nge\u201c die Daten der Klassen besser separieren w\u00fcrde.<\/p>\n\n\n\n<p>Im Fall der Merkmalsprojektion (LDA) liegen die Daten auch in einer eindimensionalen Geraden vor. Hierbei sind, anders als bei der Merkmalsauswahl, die Informationen beider Merkmale in die Reduktion eingeflossen. Es f\u00e4llt auf, dass die einzelnen Klassen durch die Merkmalsprojektion besser separiert wurden als durch das Verfahren der Merkmalsauswahl. Jedoch kann man auch erkennen, dass die Werte der reduzierten Merkmale, im Gegensatz zur Bl\u00fctenblattl\u00e4nge bei der Merkmalsauswahl, stark von den urspr\u00fcnglichen Werten abweichen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Die Lineare Diskriminanten Analyse (LDA)<\/h2>\n\n\n\n<p>LDA ist ein Merkmalsprojektions-Algorithmus zur Dimensionsreduktion, welcher auf Basis von klassifizierbaren Daten arbeitet. Das bedeutet, dass es sich bei LDA um eine Methode handelt, bei der die urspr\u00fcnglichen Merkmale in einem Datensatz auf eine kleinere Anzahl von neuen Merkmalen projiziert werden. Ihr Ziel ist es, die neuen Merkmale so zu w\u00e4hlen, dass sie die bestm\u00f6gliche Trennung zwischen verschiedenen Klassen innerhalb der Daten erm\u00f6glichen.<\/p>\n\n\n\n<p>LDA erreicht dieses Ziel durch die Betrachtung von Streuungen im Datensatz. Zum einen soll die Streuung zwischen verschiedenen Klassen (Zwischenklassenvarianz) maximiert, zum anderen die Streuung innerhalb einer Klasse (Innerklassenvarianz) minimiert werden. Das hei\u00dft, wir suchen eine Sicht auf die Daten, in denen die Datenpunkte verschiedener Klassen m\u00f6glichst weit auseinander liegen und die Daten derselben Klasse m\u00f6glichst nah beieinander sind.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"1024\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb2_LDA_blogbeitrag_transparent_DE_dunkel-1024x1024.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-17333\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb2_LDA_blogbeitrag_transparent_DE_dunkel-1024x1024.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb2_LDA_blogbeitrag_transparent_DE_dunkel-300x300.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb2_LDA_blogbeitrag_transparent_DE_dunkel-150x150.png 150w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb2_LDA_blogbeitrag_transparent_DE_dunkel-768x768.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb2_LDA_blogbeitrag_transparent_DE_dunkel-1536x1536.png 1536w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb2_LDA_blogbeitrag_transparent_DE_dunkel-400x400.png 400w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb2_LDA_blogbeitrag_transparent_DE_dunkel-600x600.png 600w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb2_LDA_blogbeitrag_transparent_DE_dunkel.png 2000w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Fabian Gawellek <br>Abbildung 2: Darstellung der Funktionsweise eines LDA-Algorithmus.<\/figcaption><\/figure>\n\n\n\n<p>Durch die Kombination von Maximierung der Zwischenklassenvarianz und Minimierung der Innerklassenvarianz werden die neuen Variablen so gew\u00e4hlt, dass sie die bestm\u00f6gliche Trennung zwischen den Klassen im Datensatz erm\u00f6glichen (siehe Abbildung 2).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Grenzen und Einschr\u00e4nkungen<\/h2>\n\n\n\n<p>Obwohl die Dimensionsreduktion eine n\u00fctzliche Methode ist, um komplexe Daten zu analysieren und zu visualisieren, gibt es folgende Grenzen und Einschr\u00e4nkungen zu beachten:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Generell l\u00e4sst sich feststellen, dass mit der Reduktion von Daten immer ein Informationsverlust einhergeht. Das kann zu einer unvollst\u00e4ndigen oder ungenauen Analyse f\u00fchren. Die Reduktion gelingt am besten, wenn sich der urspr\u00fcnglichen Datensatz sowieso durch weniger Merkmale oder Dimensionen beschreiben l\u00e4sst.<\/li>\n\n\n\n<li>Die Genauigkeit der Linear Discriminant Analysis h\u00e4ngt auch von Faktoren wie der Anzahl der Datenpunkte und der Menge der Ausrei\u00dfer im Datensatz ab. Zu wenige Datenpunkte k\u00f6nnen zum Overfitting f\u00fchren, das hei\u00dft dass durch die Reduktion die verbleibenden Merkmale zu stark auf die Stichprobe zugeschnitten werden. Das Modell kann dann auf weitere Daten nicht gut \u00fcbertragen werden. Ausrei\u00dfer hingegen f\u00fchren zu einer grunds\u00e4tzlichen Verzerrung der Ergebnisse.<\/li>\n\n\n\n<li>Es ist daher wichtig, Ausrei\u00dfer im Datensatz zu identifizieren und zu entfernen, bevor die Dimensionsreduktion durchgef\u00fchrt wird.<\/li>\n\n\n\n<li>Vor allem aber funktioniert die LDA nicht, wenn sich die Zentren der verschiedenen Klassen \u00fcberlappen oder ihre Datenpunkte stark vermischt sind.<\/li>\n\n\n\n<li>In Abbildung 3 sind die Ursprungsdaten so stark vermischt, dass durch die Dimensionsreduktion mit LDA keine Separation der Klassen m\u00f6glich ist. Es gibt also F\u00e4lle, in denen Dimensionsreduktion nicht empfehlenswert ist, da sonst die Eigenschaften der Daten verf\u00e4lscht werden und ML-Algorithmen schlechtere Ergebnisse liefern.<\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"512\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb3_fehler_blogbeitrag_transparent_DE_dunkel-1024x512.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-17336\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb3_fehler_blogbeitrag_transparent_DE_dunkel-1024x512.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb3_fehler_blogbeitrag_transparent_DE_dunkel-300x150.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb3_fehler_blogbeitrag_transparent_DE_dunkel-768x384.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb3_fehler_blogbeitrag_transparent_DE_dunkel-1536x768.png 1536w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb3_fehler_blogbeitrag_transparent_DE_dunkel-2048x1024.png 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Fabian Gawellek <br>Abbildung 3: Die Ursprungsdaten sind hier so stark vermischt, dass durch die Dimensionsreduktion mit LDA keine Separation der Klassen stattfindet. Die Genauigkeit der Daten wird verf\u00e4lscht und der ML-Algorithmus liefert schlechtere Ergebnisse.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Dimensionsreduktion als Vorverarbeitung f\u00fcr ML-Algorithmen<\/h2>\n\n\n\n<p>Abschlie\u00dfend l\u00e4sst sich zusammenfassen, dass es verschiedene Dimensionsreduktionsverfahren f\u00fcr unterschiedliche Probleme und Ziele gibt. Die Algorithmen zur Merkmalsauswahl und -projektion k\u00f6nnen entweder auf nicht-klassifizierbaren oder klassifizierbaren Daten angewandt werden und durch die Reduktion der Merkmale die Datenlast f\u00fcr ML-Algorithmen reduzieren. Insbesondere LDA kann klassifizierbare Daten analysieren und eine lineare Separation erm\u00f6glichen. Jedoch sollten die Grenzen und Einschr\u00e4nkungen bei der Anwendung von LDA stets ber\u00fccksichtigt werden, da nicht jedes Verfahren f\u00fcr jeden Datensatz sinnvoll ist.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Gro\u00dfe Datenmengen sind bei der Berechnung von ML-Algorithmen problematisch. Eine L\u00f6sung liegt in Dimensionsreduktionsverfahren wie der Linearen Diskriminanzanalyse (LDA), sie reduziert die Anzahl der Daten-Merkmale unter Ber\u00fccksichtigung der vorhandenen Klassen Labels.<\/p>\n","protected":false},"author":9,"featured_media":4794,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,437,390,732],"blog-tag":[1477,1476,1478,1487,1533],"class_list":["post-4787","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-gastbeitrag","blog-category-grundlagen","blog-category-ml-classroom-de","blog-tag-data-science-de","blog-tag-datenanalyse","blog-tag-datensatz","blog-tag-fluch-der-dimensionalitaet","blog-tag-klassifikation"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4787","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4787\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4794"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4787"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4787"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4787"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}