{"id":11877,"date":"2024-04-24T07:31:37","date_gmt":"2024-04-24T07:31:37","guid":{"rendered":"https:\/\/lamarr-institute.org\/?post_type=blog&#038;p=11877"},"modified":"2025-11-12T14:51:11","modified_gmt":"2025-11-12T14:51:11","slug":"clustering-gaussian-mixture-models","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/clustering-gaussian-mixture-models\/","title":{"rendered":"Clustering zur Erkennung von Mustern in der Medizin: Gaussian Mixture Models erkl\u00e4rt"},"content":{"rendered":"\n<p>In medizinischen Daten befinden sich h\u00e4ufig komplexe Muster, die mit blo\u00dfem Auge schwer zu erkennen sind, jedoch f\u00fcr die weiterf\u00fchrende Diagnostik und Therapie von gro\u00dfer Bedeutung sein k\u00f6nnen. Beispielsweise liegen verborgene Zusammenh\u00e4nge zwischen bestimmten Personengruppen und der Wirkung eines Medikaments vor. Um solche Strukturen zu erfassen, werden in der Medizin oftmals Clustering-Verfahren eingesetzt. Hierbei ist das Ziel die Zusammenfassung \u00e4hnlicher Datenpunkte zu Gruppen, sogenannten Clustern.<\/p>\n\n\n\n<p>In diesen F\u00e4llen bietet sich der flexible Clustering-Algorithmus <strong>Gaussian Mixture Models (GMM)<\/strong> an, der auf einem Wahrscheinlichkeitsmodell basiert, das Daten als <strong>Mischung von Gau\u00df-Verteilungen<\/strong> beschreibt. Durch die Verwendung von GMMs auf klinischen und krankheitsbezogenen Daten k\u00f6nnen Patient*innen mit \u00e4hnlichen Eigenschaften\/Symptomen oder Krankheiten anhand ihrer Merkmale gruppiert werden. Dies kann dabei helfen, ein tieferes Verst\u00e4ndnis f\u00fcr Krankheiten zu gewinnen, Behandlungserfolge zu prognostizieren und entsprechende medizinische Interventionen zu empfehlen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Grundlagen: Gau\u00df-Verteilungen<\/strong><\/h2>\n\n\n\n<p>Die Grundlage von GMMs bildet die <strong>glockenf\u00f6rmige Gau\u00df-Verteilung<\/strong>, die auch als Normalverteilung bekannt ist und eine wichtige Art von Wahrscheinlichkeitsverteilungen f\u00fcr kontinuierliche Variablen darstellt. Viele Ph\u00e4nomene in der Natur, wie z.B. die Verteilung der K\u00f6rpergr\u00f6\u00dfe oder IQ-Werte innerhalb einer Bev\u00f6lkerung, folgen n\u00e4herungsweise der Gau\u00df-Verteilung. Die Gau\u00df-Funktion gibt die Wahrscheinlichkeit daf\u00fcr an, dass Zufallsvariablen, so wie die K\u00f6rpergr\u00f6\u00dfe, bestimmte Werte annehmen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"472\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/GMM_Abbildung_1-1-1024x472.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-11891\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_1-1-1024x472.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_1-1-300x138.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_1-1-768x354.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_1-1-1536x708.png 1536w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_1-1.png 1853w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Lea Nguyen<br><strong>Abbildung 1<\/strong>: Links ist eine Gau\u00df-Verteilung zu sehen, die von der Zufallsvariable&nbsp; x abh\u00e4ngt. Rechts ist eine Gau\u00df-Verteilung abgebildet, welche von den zwei Zufallsvariablen x und y abh\u00e4ngt.<\/figcaption><\/figure>\n\n\n\n<p>Eine Gau\u00df-Verteilung mit mehreren Zufallsvariablen (s. Abb.1 rechts) wird durch folgende Parameter definiert: den <strong>Mittelwertsvektor<\/strong>, der die typisch erwarteten Werte der Variablen angibt, und die <strong>Kovarianzmatrix<\/strong>, welche den Grad des linearen Zusammenhangs der Variablen misst. Ein GMM besteht aus einer <strong>Kombination verschiedener solcher Gau\u00df-Verteilungen. <\/strong>Diese sind jeweils mit einem sogenannten <strong>Mischungskoeffizienten<\/strong> gewichtet, der den Einfluss einer individuellen Verteilung auf die Gesamtverteilung bestimmt. Insgesamt geh\u00f6ren zu den Parametern eines GMM die Mischungskoeffizienten, Mittelwertsvektoren und Kovarianzmatrizen der einzelnen Gau\u00df-Verteilungen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"1008\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/GMM_Abbildung_2-1-1024x1008.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-11893\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_2-1-1024x1008.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_2-1-300x295.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_2-1-768x756.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_2-1.png 1372w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Lea Nguyen<br><strong>Abbildung 2:<\/strong> Zwei verschiedene Gau\u00df-Verteilungen und ihre Konturdiagramme.<\/figcaption><\/figure>\n\n\n\n<p>Doch welcher Zusammenhang besteht zwischen GMMs und Clustern? Zur Beantwortung dieser Frage schauen wir uns Abbildung 2 an, auf der zwei verschiedene Gau\u00df-Verteilungen zu sehen sind. Wenn wir die Perspektive \u00e4ndern und \u201evon oben\u201c auf die Verteilungen schauen, so erkennen wir, dass jede Gau\u00df-Verteilung ein ellipsenf\u00f6rmiges Cluster repr\u00e4sentiert. Diese Darstellung wird auch als Konturdiagramm bezeichnet. Dabei sind die Position des Zentrums sowie die Form und Ausrichtung der Cluster durch die Parameter der Gau\u00df-Verteilung festgelegt. Die einzelnen Ellipsen geben an, wie wahrscheinlich es ist, dass ein Datenpunkt zu dem jeweiligen Cluster geh\u00f6rt. Der Gau\u00df-Funktion entsprechend nimmt diese Wahrscheinlichkeit vom Ellipsenzentrum nach au\u00dfen hin glockenf\u00f6rmig ab. Zusammenfassend bedeutet das f\u00fcr uns, dass GMMs verschiedene <strong>ellipsenf\u00f6rmige Cluster<\/strong> <strong>modellieren<\/strong> k\u00f6nnen, was wir nachfolgend f\u00fcr den Clustering-Prozess verwenden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Wie funktioniert der Clustering-Prozess?<\/strong><\/h2>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"543\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/GMM_Abbildung_3-1-1024x543.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-11895\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_3-1-1024x543.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_3-1-300x159.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_3-1-768x407.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_3-1-1536x814.png 1536w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_3-1-2048x1086.png 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Lea Nguyen<br><strong>Abbildung 3<\/strong>: Links befinden sich 100 Datenpunkte in Abh\u00e4ngigkeit der Variablen x und y. Rechts sind die Datenpunkte nach Anwendung des Expectation-Maximization-Algorithmus in drei verschiedene Cluster gruppiert.<\/figcaption><\/figure>\n\n\n\n<p>Wir wissen jetzt, dass ein GMM unterschiedliche Cluster darstellen kann &#8211; doch wie genau funktioniert der Clustering-Prozess? Zu Beginn haben wir eine Stichprobe mit mehreren Datenpunkten gegeben, die wir in eine vorgegebene Anzahl von Clustern gruppieren m\u00f6chten. Wir nehmen an, dass die Datenpunkte durch ein GMM beschrieben werden k\u00f6nnen, dessen Clusterparameter (Mischungskoeffizienten, Mittelwertsvektoren, Kovarianzmatrizen) noch unbekannt sind. Unser Ziel ist es, diese Parameter so anzupassen, sodass die Datenpunkte optimal durch die Cluster dargestellt werden (s. Abb. 3).<\/p>\n\n\n\n<p>Um dies zu erreichen, m\u00fcssen wir die Wahrscheinlichkeit daf\u00fcr maximieren, dass die Datenpunkte durch ein GMM beschrieben werden. Diese Wahrscheinlichkeit wird durch die sogenannte <strong>Log-Likelihood-Funktion<\/strong> gegeben, die von den unbekannten Parametern abh\u00e4ngt. Zur Maximierung der Log-Likelihood-Funktion durch Sch\u00e4tzung der optimalen Clusterparameter verwenden wir den iterativen, numerischen <strong>Expectation-Maximization-Algorithmus<\/strong>, welcher folgende Schritte umfasst:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Initialisierung<\/strong>: Zu Beginn initialisieren wir die Werte der Mittelwertsvektoren, Kovarianzmatrizen und Mischungskoeffizienten der Cluster (z.B. mithilfe des <a href=\"https:\/\/de.wikipedia.org\/wiki\/K-Means-Algorithmus\" target=\"_blank\" rel=\"noreferrer noopener\">k-Means-Algorithmus<\/a>).<\/li>\n\n\n\n<li><strong>Expectation-Schritt<\/strong>: Anschlie\u00dfend berechnen wir f\u00fcr jeden einzelnen Datenpunkt seine sogenannte <strong>Responsibility<\/strong>. Dieser gibt an, mit welcher Wahrscheinlichkeit ein Datenpunkt zu einem Cluster geh\u00f6rt. GMMs werden daher im Gegensatz zum k-Means-Algorithmus auch als <strong>Soft-Clustering-Methode<\/strong> bezeichnet, da die Responsibility statt \u201eharten\u201c 0-oder-1-Zuordnungen \u201eweiche\u201c Wahrscheinlichkeiten zuweist und ein Datenpunkt mehr als einem Cluster zugeordnet sein kann.<\/li>\n\n\n\n<li><strong>Maximization-Schritt:<\/strong> Anhand der berechneten Responsibilities aktualisieren wir die Clusterparameter und n\u00e4hern uns dadurch den optimalen Parametern an. Hierbei kommt das statistische Verfahren <strong>Maximum-Likelihood-Sch\u00e4tzung <\/strong>zum Einsatz, das die Maximierung der Log-Likelihood-Funktion zum Ziel hat.<\/li>\n\n\n\n<li><strong>Evaluation<\/strong>: Nun \u00fcberpr\u00fcfen wir, ob die Log-Likelihood-Funktion konvergiert, sich also nicht mehr wesentlich ver\u00e4ndert. Falls die Konvergenzbedingung noch nicht erf\u00fcllt ist, kehren wir zu Schritt 2 zur\u00fcck und wiederholen die Expectation- und Maximization-Schritte.<\/li>\n<\/ol>\n\n\n\n<p>Insgesamt garantiert der Expectation-Maximization-Algorithmus, dass die Log-Likelihood-Funktion in jeder Parameteraktualisierung im Maximization-Schritt erh\u00f6ht wird oder&nbsp; gleichbleibt. Dadurch n\u00e4hern wir uns nach mehreren Wiederholungen einer Maximalstelle der Log-Likelihood-Funktion an, sodass unsere Daten zum Schluss optimal durch die Cluster des GMM beschrieben werden.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Von der Theorie in die Praxis: Gruppierung von Diabetes-Patient*innen<\/strong><\/h2>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"547\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/GMM_Abbildung_4-1-1024x547.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-11897\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_4-1-1024x547.png 1024w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_4-1-300x160.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_4-1-768x410.png 768w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_4-1-1536x820.png 1536w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/GMM_Abbildung_4-1-2048x1093.png 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Lea Nguyen<br><strong>Abbildung 4<\/strong>: Links sind 300 Datenpunkte abgebildet, die Personen mit Typ-2-Diabetes abh\u00e4ngig von ihrem Alter und Body-Mass-Index repr\u00e4sentieren. Rechts sind die Personen nach Anwendung des Expectation-Maximization-Algorithmus in drei verschiedene Cluster gruppiert.<\/figcaption><\/figure>\n\n\n\n<p>Wie k\u00f6nnen wir GMMs auf medizinische Daten anwenden und welche Erkenntnisse k\u00f6nnen wir daraus gewinnen? Wir stellen uns im Folgenden ein vereinfachtes Beispiel vor: 300 Personen mit Typ-2-Diabetes zu ihrem Alter und <a href=\"https:\/\/de.wikipedia.org\/wiki\/Body-Mass-Index\" target=\"_blank\" rel=\"noreferrer noopener\">Body-Mass-Index (BMI)<\/a> werden befragt (s. Abb. 4 links). Unser Ziel ist es herauszufinden, ob bestimmte Muster in den Daten vorliegen, die uns f\u00fcr die weitere medizinische Behandlung hilfreich sein k\u00f6nnten. Daf\u00fcr nehmen wir an, dass die Daten durch ein GMM mit drei Clustern dargestellt werden k\u00f6nnen und wenden zur Sch\u00e4tzung der optimalen Clusterparameter anschlie\u00dfend den Expectation-Maximization-Algorithmus an. Als Ergebnis erhalten wir die in Abb. 4 rechts zu sehenden Cluster. <\/p>\n\n\n\n<p>In der realen Forschung werden neben dem Alter und BMI viele weitere Dimensionen ber\u00fccksichtigt, z.B. das Geschlecht, der Blutdruck oder famili\u00e4re Vorerkrankungen. Jedes Cluster repr\u00e4sentiert dabei eine Menge von Diabetes-Patient*innen und wird durch bestimmte hervorstechende Merkmale charakterisiert. Diese Gruppierung erm\u00f6glicht es, Patient*innen entsprechende medizinische Strategien zu empfehlen, wie beispielsweise Stoffwechselkontrolle f\u00fcr das erste oder familienbasierte Interventionen f\u00fcr das zweite Cluster.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Was sind die Vor- und Nachteile von Gaussian Mixture Models?<\/strong><\/h2>\n\n\n\n<p><strong>Vorteile:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Flexibilit\u00e4t<\/strong>: Mithilfe der Gau\u00df-Verteilungen k\u00f6nnen GMM komplexe Datenstrukturen flexibel erfassen, was eine <strong>vielf\u00e4ltige Anwendung<\/strong> erm\u00f6glicht, z.B. zur Bildsegmentierung oder Spracherkennung.<\/li>\n\n\n\n<li><strong>Modellierung von Unsicherheit<\/strong>: Daneben erlaubt<strong> <\/strong>die Zuordnung von Wahrscheinlichkeiten (Soft-Clustering) die Modellierung von Unsicherheit in Datens\u00e4tzen.&nbsp; Solche Unsicherheiten liegen oftmals in medizinischen Datens\u00e4tzen, sodass Datenpunkte durch GMMs mit hoher Genauigkeit Clustern zugeordnet werden k\u00f6nnen.<\/li>\n<\/ul>\n\n\n\n<p><strong>Nachteile:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Hoher Rechenaufwand<\/strong>: Im Vergleich zum k-Means-Algorithmus ben\u00f6tigt der Expectation-Maximization-Algorithmus wesentlich <strong>mehr Wiederholungen<\/strong> bis zur Konvergenz. Insbesondere in medizinischen Daten, die oft aus sehr gro\u00dfen Datenpunktmengen bestehen, kann dies zum Problem werden. Zur Erh\u00f6hung der Effizienz wird daher z.B. h\u00e4ufig der k-Means-Algorithmus zur Initialisierung verwendet.<\/li>\n\n\n\n<li><strong>Zu komplexes Modell<\/strong>: In einigen F\u00e4llen kann es zur <strong>\u00dcberanpassung<\/strong> kommen, was bedeutet, dass das GMM zu komplex ist und Datenpunkte nicht mehr pr\u00e4zise Clustern zuordnen kann. Als m\u00f6gliche L\u00f6sung bietet sich <a href=\"https:\/\/lamarr-institute.org\/de\/dimensionsreduktion-pca\/\" target=\"_blank\" rel=\"noreferrer noopener\">Dimensionsreduktion<\/a> der Cluster an.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Zusammenfassung und Fazit: Gaussian Mixture Model als flexibler Clustering-Algorithmus<\/strong><\/h2>\n\n\n\n<p>Zusammenfassend sind Gaussian Mixture Models eine flexible Soft-Clustering-Methode, die auf einem Wahrscheinlichkeitsmodell basiert, das Daten als Mischung von Gau\u00df-Verteilungen beschreibt. Das Ziel des Clustering-Prozesses ist die Zusammenfassung \u00e4hnlicher Datenpunkte zu Clustern. Hierbei kommt neben Maximum-Likelihood-Sch\u00e4tzung der iterative Expectation-Maximization-Algorithmus zum Einsatz. GMMs erm\u00f6glichen die Aufdeckung von vorher unbekannten Strukturen und Mustern und k\u00f6nnen insbesondere bei der Anwendung auf medizinische Daten die Diagnostik und Therapie von Krankheiten vereinfachen.<\/p>\n\n\n\n<p>Insgesamt lassen sich GMMs vielf\u00e4ltig einsetzen und eignen sich vor allem dann, wenn Cluster unterschiedliche Formen und Gr\u00f6\u00dfen besitzen oder Unsicherheit in der Datenpunktzuordnung vorliegt. Allerdings besitzen GMMs auch einige Schw\u00e4chen, wie ein hoher Rechenaufwand bei gro\u00dfen Datens\u00e4tzen und die Tendenz zur \u00dcberanpassung. In Kombination mit anderen Verfahren kann diesen jedoch entgegengewirkt werden.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>In medizinischen Daten verstecken sich h\u00e4ufig schwer zu erkennende, aber f\u00fcr Diagnostik und Therapie relevante Muster. Wie k\u00f6nnen wir diese Strukturen identifizieren? Der Clustering-Algorithmus Gaussian Mixture Models gibt eine Antwort darauf.<\/p>\n","protected":false},"author":22,"featured_media":11973,"template":"","meta":{"_acf_changed":true,"footnotes":""},"blog-category":[1416,390,732],"blog-tag":[1444,1455,1476,1513,1526],"class_list":["post-11877","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-grundlagen","blog-category-ml-classroom-de","blog-tag-algorithmen","blog-tag-clustering-de","blog-tag-datenanalyse","blog-tag-gaussian-mixture-models-de","blog-tag-ki-in-der-medizin"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/11877","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/22"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/11877\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/11973"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=11877"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=11877"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=11877"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}