In medizinischen Daten befinden sich häufig komplexe Muster, die mit bloßem Auge schwer zu erkennen sind, jedoch für die weiterführende Diagnostik und Therapie von großer Bedeutung sein können. Beispielsweise liegen verborgene Zusammenhänge zwischen bestimmten Personengruppen und der Wirkung eines Medikaments vor. Um solche Strukturen zu erfassen, werden in der Medizin oftmals Clustering-Verfahren eingesetzt. Hierbei ist das Ziel die Zusammenfassung ähnlicher Datenpunkte zu Gruppen, sogenannten Clustern.
In diesen Fällen bietet sich der flexible Clustering-Algorithmus Gaussian Mixture Models (GMM) an, der auf einem Wahrscheinlichkeitsmodell basiert, das Daten als Mischung von Gauß-Verteilungen beschreibt. Durch die Verwendung von GMMs auf klinischen und krankheitsbezogenen Daten können Patient*innen mit ähnlichen Eigenschaften/Symptomen oder Krankheiten anhand ihrer Merkmale gruppiert werden. Dies kann dabei helfen, ein tieferes Verständnis für Krankheiten zu gewinnen, Behandlungserfolge zu prognostizieren und entsprechende medizinische Interventionen zu empfehlen.
Grundlagen: Gauß-Verteilungen
Die Grundlage von GMMs bildet die glockenförmige Gauß-Verteilung, die auch als Normalverteilung bekannt ist und eine wichtige Art von Wahrscheinlichkeitsverteilungen für kontinuierliche Variablen darstellt. Viele Phänomene in der Natur, wie z.B. die Verteilung der Körpergröße oder IQ-Werte innerhalb einer Bevölkerung, folgen näherungsweise der Gauß-Verteilung. Die Gauß-Funktion gibt die Wahrscheinlichkeit dafür an, dass Zufallsvariablen, so wie die Körpergröße, bestimmte Werte annehmen.
Eine Gauß-Verteilung mit mehreren Zufallsvariablen (s. Abb.1 rechts) wird durch folgende Parameter definiert: den Mittelwertsvektor, der die typisch erwarteten Werte der Variablen angibt, und die Kovarianzmatrix, welche den Grad des linearen Zusammenhangs der Variablen misst. Ein GMM besteht aus einer Kombination verschiedener solcher Gauß-Verteilungen. Diese sind jeweils mit einem sogenannten Mischungskoeffizienten gewichtet, der den Einfluss einer individuellen Verteilung auf die Gesamtverteilung bestimmt. Insgesamt gehören zu den Parametern eines GMM die Mischungskoeffizienten, Mittelwertsvektoren und Kovarianzmatrizen der einzelnen Gauß-Verteilungen.
Doch welcher Zusammenhang besteht zwischen GMMs und Clustern? Zur Beantwortung dieser Frage schauen wir uns Abbildung 2 an, auf der zwei verschiedene Gauß-Verteilungen zu sehen sind. Wenn wir die Perspektive ändern und „von oben“ auf die Verteilungen schauen, so erkennen wir, dass jede Gauß-Verteilung ein ellipsenförmiges Cluster repräsentiert. Diese Darstellung wird auch als Konturdiagramm bezeichnet. Dabei sind die Position des Zentrums sowie die Form und Ausrichtung der Cluster durch die Parameter der Gauß-Verteilung festgelegt. Die einzelnen Ellipsen geben an, wie wahrscheinlich es ist, dass ein Datenpunkt zu dem jeweiligen Cluster gehört. Der Gauß-Funktion entsprechend nimmt diese Wahrscheinlichkeit vom Ellipsenzentrum nach außen hin glockenförmig ab. Zusammenfassend bedeutet das für uns, dass GMMs verschiedene ellipsenförmige Cluster modellieren können, was wir nachfolgend für den Clustering-Prozess verwenden.
Wie funktioniert der Clustering-Prozess?
Wir wissen jetzt, dass ein GMM unterschiedliche Cluster darstellen kann – doch wie genau funktioniert der Clustering-Prozess? Zu Beginn haben wir eine Stichprobe mit mehreren Datenpunkten gegeben, die wir in eine vorgegebene Anzahl von Clustern gruppieren möchten. Wir nehmen an, dass die Datenpunkte durch ein GMM beschrieben werden können, dessen Clusterparameter (Mischungskoeffizienten, Mittelwertsvektoren, Kovarianzmatrizen) noch unbekannt sind. Unser Ziel ist es, diese Parameter so anzupassen, sodass die Datenpunkte optimal durch die Cluster dargestellt werden (s. Abb. 3).
Um dies zu erreichen, müssen wir die Wahrscheinlichkeit dafür maximieren, dass die Datenpunkte durch ein GMM beschrieben werden. Diese Wahrscheinlichkeit wird durch die sogenannte Log-Likelihood-Funktion gegeben, die von den unbekannten Parametern abhängt. Zur Maximierung der Log-Likelihood-Funktion durch Schätzung der optimalen Clusterparameter verwenden wir den iterativen, numerischen Expectation-Maximization-Algorithmus, welcher folgende Schritte umfasst:
- Initialisierung: Zu Beginn initialisieren wir die Werte der Mittelwertsvektoren, Kovarianzmatrizen und Mischungskoeffizienten der Cluster (z.B. mithilfe des k-Means-Algorithmus).
- Expectation-Schritt: Anschließend berechnen wir für jeden einzelnen Datenpunkt seine sogenannte Responsibility. Dieser gibt an, mit welcher Wahrscheinlichkeit ein Datenpunkt zu einem Cluster gehört. GMMs werden daher im Gegensatz zum k-Means-Algorithmus auch als Soft-Clustering-Methode bezeichnet, da die Responsibility statt „harten“ 0-oder-1-Zuordnungen „weiche“ Wahrscheinlichkeiten zuweist und ein Datenpunkt mehr als einem Cluster zugeordnet sein kann.
- Maximization-Schritt: Anhand der berechneten Responsibilities aktualisieren wir die Clusterparameter und nähern uns dadurch den optimalen Parametern an. Hierbei kommt das statistische Verfahren Maximum-Likelihood-Schätzung zum Einsatz, das die Maximierung der Log-Likelihood-Funktion zum Ziel hat.
- Evaluation: Nun überprüfen wir, ob die Log-Likelihood-Funktion konvergiert, sich also nicht mehr wesentlich verändert. Falls die Konvergenzbedingung noch nicht erfüllt ist, kehren wir zu Schritt 2 zurück und wiederholen die Expectation- und Maximization-Schritte.
Insgesamt garantiert der Expectation-Maximization-Algorithmus, dass die Log-Likelihood-Funktion in jeder Parameteraktualisierung im Maximization-Schritt erhöht wird oder gleichbleibt. Dadurch nähern wir uns nach mehreren Wiederholungen einer Maximalstelle der Log-Likelihood-Funktion an, sodass unsere Daten zum Schluss optimal durch die Cluster des GMM beschrieben werden.
Von der Theorie in die Praxis: Gruppierung von Diabetes-Patient*innen
Wie können wir GMMs auf medizinische Daten anwenden und welche Erkenntnisse können wir daraus gewinnen? Wir stellen uns im Folgenden ein vereinfachtes Beispiel vor: 300 Personen mit Typ-2-Diabetes zu ihrem Alter und Body-Mass-Index (BMI) werden befragt (s. Abb. 4 links). Unser Ziel ist es herauszufinden, ob bestimmte Muster in den Daten vorliegen, die uns für die weitere medizinische Behandlung hilfreich sein könnten. Dafür nehmen wir an, dass die Daten durch ein GMM mit drei Clustern dargestellt werden können und wenden zur Schätzung der optimalen Clusterparameter anschließend den Expectation-Maximization-Algorithmus an. Als Ergebnis erhalten wir die in Abb. 4 rechts zu sehenden Cluster.
In der realen Forschung werden neben dem Alter und BMI viele weitere Dimensionen berücksichtigt, z.B. das Geschlecht, der Blutdruck oder familiäre Vorerkrankungen. Jedes Cluster repräsentiert dabei eine Menge von Diabetes-Patient*innen und wird durch bestimmte hervorstechende Merkmale charakterisiert. Diese Gruppierung ermöglicht es, Patient*innen entsprechende medizinische Strategien zu empfehlen, wie beispielsweise Stoffwechselkontrolle für das erste oder familienbasierte Interventionen für das zweite Cluster.
Was sind die Vor- und Nachteile von Gaussian Mixture Models?
Vorteile:
- Flexibilität: Mithilfe der Gauß-Verteilungen können GMM komplexe Datenstrukturen flexibel erfassen, was eine vielfältige Anwendung ermöglicht, z.B. zur Bildsegmentierung oder Spracherkennung.
- Modellierung von Unsicherheit: Daneben erlaubt die Zuordnung von Wahrscheinlichkeiten (Soft-Clustering) die Modellierung von Unsicherheit in Datensätzen. Solche Unsicherheiten liegen oftmals in medizinischen Datensätzen, sodass Datenpunkte durch GMMs mit hoher Genauigkeit Clustern zugeordnet werden können.
Nachteile:
- Hoher Rechenaufwand: Im Vergleich zum k-Means-Algorithmus benötigt der Expectation-Maximization-Algorithmus wesentlich mehr Wiederholungen bis zur Konvergenz. Insbesondere in medizinischen Daten, die oft aus sehr großen Datenpunktmengen bestehen, kann dies zum Problem werden. Zur Erhöhung der Effizienz wird daher z.B. häufig der k-Means-Algorithmus zur Initialisierung verwendet.
- Zu komplexes Modell: In einigen Fällen kann es zur Überanpassung kommen, was bedeutet, dass das GMM zu komplex ist und Datenpunkte nicht mehr präzise Clustern zuordnen kann. Als mögliche Lösung bietet sich Dimensionsreduktion der Cluster an.
Zusammenfassung und Fazit: Gaussian Mixture Model als flexibler Clustering-Algorithmus
Zusammenfassend sind Gaussian Mixture Models eine flexible Soft-Clustering-Methode, die auf einem Wahrscheinlichkeitsmodell basiert, das Daten als Mischung von Gauß-Verteilungen beschreibt. Das Ziel des Clustering-Prozesses ist die Zusammenfassung ähnlicher Datenpunkte zu Clustern. Hierbei kommt neben Maximum-Likelihood-Schätzung der iterative Expectation-Maximization-Algorithmus zum Einsatz. GMMs ermöglichen die Aufdeckung von vorher unbekannten Strukturen und Mustern und können insbesondere bei der Anwendung auf medizinische Daten die Diagnostik und Therapie von Krankheiten vereinfachen.
Insgesamt lassen sich GMMs vielfältig einsetzen und eignen sich vor allem dann, wenn Cluster unterschiedliche Formen und Größen besitzen oder Unsicherheit in der Datenpunktzuordnung vorliegt. Allerdings besitzen GMMs auch einige Schwächen, wie ein hoher Rechenaufwand bei großen Datensätzen und die Tendenz zur Überanpassung. In Kombination mit anderen Verfahren kann diesen jedoch entgegengewirkt werden.