{"id":4546,"date":"2022-07-27T04:10:30","date_gmt":"2022-07-27T04:10:30","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/ki-in-der-radiologie\/"},"modified":"2025-11-12T14:53:13","modified_gmt":"2025-11-12T14:53:13","slug":"ki-in-der-radiologie","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/ki-in-der-radiologie\/","title":{"rendered":"KI in der Radiologie \u2013 Mit Deep Learning h\u00e4morrhagische Schlaganf\u00e4lle klassifizieren und erkl\u00e4ren"},"content":{"rendered":"\n<p>\u201eTime is brain\u201c \u2013 dieser bekannte Satz fasst die Problematik eines Schlaganfalls zusammen. Erleidet eine Person einen Schlaganfall, kommt es auf schnelles Handeln an, um bleibende Sch\u00e4den wenigstens zu vermindern. Ursache f\u00fcr einen Schlaganfall kann entweder ein Gef\u00e4\u00dfverschluss (isch\u00e4misch) oder eine Blutung im Gehirn (h\u00e4morrhagisch) sein. Bei einem Gef\u00e4\u00dfverschluss kann die Durchblutung durch blutverd\u00fcnnende Medikamente wiederhergestellt werden. Dieses Medikament w\u00e4re im Falle einer Blutung jedoch kontraproduktiv. Deswegen muss eine bildgebende Diagnostik angefertigt werden, um m\u00f6glichst schnell zwischen den beiden Krankheitsbildern zu unterscheiden und bei einem h\u00e4morrhagischen Schlaganfall die Lokalit\u00e4t und Gr\u00f6\u00dfe der Blutung untersuchen zu k\u00f6nnen. Dazu wird in der Regel eine Computertomografie (CT) (s. Abb. 1) des Sch\u00e4dels erstellt. Diese besteht aus vielen einzelnen Bildern (Schichten), die zusammen den dreidimensionalen Eindruck des Kopfes erzeugen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/22-08-24_Goerge_Abbildung-1.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25403\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 CQ500 Dataset von qure.ai, CC-BY-NC-SA, Zuschnitt und Beschriftung der Grafik Rebekka G\u00f6rge<br>Abbildung 1:&nbsp;CT Aufnahmen&nbsp;des Sch\u00e4dels mit Blutungen in unterschiedlichen Regionen des Kopfes.<\/figcaption><\/figure>\n\n\n\n<p>Die Analyse des CTs kann gerade f\u00fcr \u00e4rztliche Berufseinsteigende zeitaufw\u00e4ndig und herausfordernd sein. Aus dieser Problematik entstand die Idee, \u00c4rzt*innen durch eine Anwendung zu unterst\u00fctzen, welche automatisch klassifiziert, ob auf einer Computertomografie eine Blutung vorliegt. Dazu bietet sich der Einsatz von Deep Learning und insbesondere von Convolutional Neural Networks (CNNs) an. In einem sicherheitskritischen Bereich wie der Medizin muss gleichzeitig sichergestellt werden, dass \u00c4rztinnen die Vorhersagen eines solchen Systems nachvollziehen k\u00f6nnen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Woher kommen die Daten und wie funktioniert das Modell?<\/h2>\n\n\n\n<p>Als Grundlage f\u00fcr die Realisierung einer solchen Anwendung werden zun\u00e4chst Daten ben\u00f6tigt. Die Radiological Society North America (RSNA) ver\u00f6ffentlichte im Jahr 2018 im Rahmen des Wettbewerbs <em>\u201eRSNA Intracranial Hemorrhage Detection\u201c <\/em>auf der Plattform <a href=\"https:\/\/www.kaggle.com\/c\/rsna-intracranial-hemorrhage-detection\" target=\"_blank\" rel=\"noreferrer noopener\">Kaggel<\/a> den gr\u00f6\u00dften multinationalen und multi-institutionellen Datensatz von CT-Scans mit mehr als 25.312 CTs, die aus insgesamt 874.035 Bildern bestehen. Diese Bilder wurden von Radiolog*innen mit sechs verschiedenen Klassen gekennzeichnet. Die erste Klasse gibt an, ob allgemein ein Schlaganfall vorliegt und die anderen Klassen jeweils, in welcher Region des Kopfes die Blutung auftritt (s. Abb. 1).<\/p>\n\n\n\n<p>Neben dem Datensatz wird als Grundlage f\u00fcr das Modell zur Klassifizierung von h\u00e4morrhagischen Schlaganf\u00e4llen der <a href=\"https:\/\/github.com\/SeuTao\/RSNA2019_Intracranial-Hemorrhage-Detection\" target=\"_blank\" rel=\"noreferrer noopener\">Siegeralgorithmus<\/a> dieses Wettbewerbs verwendet. Weitere Informationen zum Modell finden sich auch im <a href=\"https:\/\/doi.org\/10.1016\/j.nicl.2021.102785\" target=\"_blank\" rel=\"noreferrer noopener\">Paper von Wang et al.<\/a>, welches zum Zeitpunkt dieser Arbeit noch nicht ver\u00f6ffentlicht war. Das im Rahmen des Wettbewerbs ver\u00f6ffentlichte Modell wird neu trainiert, indem der urspr\u00fcngliche Trainingsdatensatz in je einen neuen Trainings- und einen Testdatensatz aufgeteilt wird. Die grundlegende Struktur des Modells ist in Abb. 2 dargestellt. Zun\u00e4chst werden aus den medizinischen Daten (DICOM-Format) einerseits die Bilddaten, anderseits Metadaten extrahiert. Zu den Metadaten geh\u00f6rt hier beispielsweise die anonyme Patienten-ID. Im n\u00e4chsten Schritt werden die Bilddaten vorverarbeitet. Die vorverarbeiteten Bilder sowie die Metadaten dienen als Eingabe f\u00fcr ein CNN-Modell. Das CNN-Modell verarbeitet alle Schichten des CTs unabh\u00e4ngig voneinander und erzeugt f\u00fcr jede Schicht eine Ausgabe, ob eine Blutung vorliegt und in welcher Region des Gehirns sie auftritt. Diese Ausgabe sowie die gelernten Merkmale des CNN-Modells sind Eingabe f\u00fcr ein sequenzielles Modell. Im sequenziellen Modell wird das gesamte CT mit allen Schichten als Sequenz betrachtet. Die Idee ist, die Nachbarschaftsinformationen zu nutzen, wenn zum Beispiel auf aufeinanderfolgenden Schichten des CTs die gleiche Blutungsklasse erkannt wurde und so das Modell zu verbessern. Im sequenziellen Modell k\u00f6nnen zudem die Vorhersagen und Merkmale von verschieden trainierten CNN-Modellen zusammengef\u00fchrt werden. Ausgabe des sequenziellen Modells ist erneut eine Klassifikation f\u00fcr jede Schicht des CTs.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"890\" height=\"442\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abbildung-2.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-13429\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abbildung-2.jpg 890w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abbildung-2-300x149.jpg 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abbildung-2-768x381.jpg 768w\" sizes=\"auto, (max-width: 890px) 100vw, 890px\" \/><figcaption class=\"wp-element-caption\">\u00a9 ML2R &amp; Rebekka G\u00f6rge <br>Abbildung 2: \u00dcberblick \u00fcber die Struktur des Modells.<\/figcaption><\/figure>\n\n\n\n<p>Das Modell wird mit verschiedenen Vorverarbeitungsmethoden, CNN-Architekturen und Kombinationen neu trainiert. Die Einbettung des Modells wird angepasst, sodass beliebige CTs als Eingabedaten verarbeiten werden k\u00f6nnen. Durch die Experimente ergibt sich als bestes Modell eine Kombination aus zwei verschiedenen CNN-Modellen, deren Ausgabe im sequenziellen Modell zusammengef\u00fchrt wird. Beide CNN-Modelle haben als Backbone eine SE-RexNext-101-Architektur. Bei dieser CNN-Architektur wird eine <a href=\"https:\/\/arxiv.org\/abs\/1611.05431\" target=\"_blank\" rel=\"noreferrer noopener\">ResNeXt-101<\/a>-Architektur mit einem sogenannten <a href=\"https:\/\/ieeexplore.ieee.org\/document\/8578843\" target=\"_blank\" rel=\"noreferrer noopener\">Squeeze- and Excitation-Block<\/a> (SE-Block), kombiniert, wobei wichtigere Feature-Maps st\u00e4rker gewichtet werden. Im ersten Modell werden die medizinischen Eingabebilder in drei verschiedenen Fensterungen erzeugt. Alle drei heben unterschiedliche Strukturen wie z.B. Knochen oder Weichgewebe hervor, indem aus den digitalen Werten des CTs, die in der sogenannten Houndsfield-Skala vorliegen, ein spezifisches Intervall ausgew\u00e4hlt wird. Die Houndsfield-Skala stellt die Abschw\u00e4chung von R\u00f6ntgenstrahlung im Gewebe dar. &nbsp;Im zweiten Modell werden drei aufeinanderfolgende Schichten eines CTs gleichzeitig als Eingabe f\u00fcr das CNN-Modell genutzt.<\/p>\n\n\n\n<p>Nach dem Training wird das Modell auf zwei weiteren Datens\u00e4tzen evaluiert. Als erster Datensatz wird der \u00f6ffentlich zug\u00e4ngliche CQ500 -Datensatz verwendet. Das Modell erzeugt hier \u00e4hnlich gute Ergebnisse wie f\u00fcr den RSNA-Testdatensatz. \u00dcber die meisten Klassen hinweg sind die Performanz-Metriken <em>Accuracy <\/em>und <em>AUC <\/em>hoch (CQ500-Datenset: Accuracy: 97-99%, AUC: 98-99%). Der F1-Score ist f\u00fcr fast alle Klassen hoch (71%-98%), au\u00dfer f\u00fcr epidurale Blutungen (25%). Gleiches wird auch auf dem RSNA-Testdatensatz beobachtet. Das Modell scheint hier schlecht zu performen, da sehr viel weniger Daten f\u00fcr Blutungen in dieser Region vorhanden sind. Viele epidurale Blutungen werden falsch als subdural erkannt. Subdurale Blutungen und epidurale Blutungen treten nah beieinander an jeweils unterschiedlichen Seiten der \u00e4u\u00dferen Hirnhaut auf.<\/p>\n\n\n\n<p>Als zweiter Testdatensatz werden Daten eines lokalen Krankenhauses verwendet. Um gezielt Daten aus dem normalen Klinikalltag zu betrachten, wurden \u00fcber zwei Monate hinweg alle intrakraniellen CT-Bilder gesammelt. Alle CT-Bilder werden sowohl durch das neu trainierte Modell klassifiziert als auch durch einen Radiologen des lokalen Krankenhauses beurteilt. Anschlie\u00dfend werden beide Ergebnisse gemeinsam mit dem Radiologen analysiert.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Wie k\u00f6nnen \u00c4rzt*innen die Entscheidungen des Modells nachvollziehen?<\/h2>\n\n\n\n<p>Auch wenn das Modell sehr gute Ergebnisse liefert, muss f\u00fcr die Diskussion mit dem Radiologen sowie f\u00fcr den realen Anwendungskontext die Frage gekl\u00e4rt werden, wie \u00c4rzt*innen die Entscheidung des Modells nachvollziehen k\u00f6nnen. Mithilfe verschiedener Post-Hoc-Verfahren k\u00f6nnen die Entscheidungen eines Algorithmus im Nachhinein lokal erkl\u00e4rt werden. Dazu wird im Rahmen dieser Arbeit das Verfahren <a href=\"https:\/\/ieeexplore.ieee.org\/document\/8354201\" target=\"_blank\" rel=\"noreferrer noopener\">Grad-CAM++<\/a> &nbsp;genutzt. Hierbei wird eine klassenspezifische Visualisierung (s. Abb. 3) erzeugt, die die Wichtigkeit einer bestimmten Region f\u00fcr die Entscheidung des Algorithmus veranschaulicht. Die Visualisierung ist eine gewichtete Linearkombination der positiven Gradienten der Feature-Maps des letzten <em>Convolutional Layers.<\/em><\/p>\n\n\n\n<figure class=\"wp-block-gallery has-nested-images columns-default is-cropped wp-block-gallery-2 is-layout-flex wp-block-gallery-is-layout-flex\">\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" data-id=\"25408\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abbildung-3a.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25408\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 CQ500 Dataset von qure.ai, CC-BY-NC-SA<\/figcaption><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" data-id=\"25410\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abbildung-3b.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25410\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 CQ500 Dataset von qure.ai, CC-BY-NC-SA, Heatmap der Grafik Rebekka G\u00f6rge<\/figcaption><\/figure>\n<figcaption class=\"blocks-gallery-caption wp-element-caption\">Abbildung 3: Eine vom Modell erkannte Blutung wird durch Grad-CAM++ Verfahren visualisiert, CQ500-Datenset (links), erzeugte Heatmap (rechts).<\/figcaption><\/figure>\n\n\n\n<p>Die Visualisierung erlaubt es dem Radiologen nachzuvollziehen, welche Regionen f\u00fcr den Algorithmus auff\u00e4llig waren und die Klassifikation zu \u00fcberpr\u00fcfen. In der gemeinsamen Analyse des zweiten Datensatzes kann der Radiologe beispielsweise einige vom Algorithmus detektierte Stellen als Blutung best\u00e4tigen, die im Voraus \u00fcbersehen wurden. Gleichzeitig zeigt die Visualisierung, dass das Modell f\u00e4lschlicherweise mehrere OP-Defekte als Blutung klassifiziert hat.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Fazit<\/h2>\n\n\n\n<p><em>Deep Learning <\/em>liefert oftmals sehr gute Ergebnisse bei der Klassifizierung medizinischer Bilddaten. Die automatische Klassifizierung von h\u00e4morrhagischen Schlaganf\u00e4llen l\u00e4sst sich durch CNNs in Verbindung mit einem sequenziellen Modell realisieren und liefert in den meisten F\u00e4llen eine hohe Performanz. F\u00fcr den Einsatz in einem sicherheitskritischen Bereich wie der Medizin ist neben einer durchgehend hohen Performanz allerdings auch eine Erkl\u00e4rung der Ergebnisse n\u00f6tig. Die Visualisierung durch Grad-CAM++ bietet eine M\u00f6glichkeit, die Ergebnisse f\u00fcr \u00c4rzt*innen nachvollziehbar zu machen. Es scheint sinnvoll, Medizinerinnen durch eine solche Anwendung zu unterst\u00fctzen und durch eine schnelle Klassifizierung von CT-Bildern Auff\u00e4lligkeiten m\u00f6glichst schnell zu detektieren. Dennoch m\u00fcsste medizinisches Fachpersonal die Ergebnisse in jedem Fall kritisch pr\u00fcfen und best\u00e4tigen, um falsche Vorhersagen auszuschlie\u00dfen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Kommt es zum Schlaganfall, ist eine schnelle Intervention gefordert. Eine Deep Learning Klassifizierung k\u00f6nnte \u00c4rzt*innen unterst\u00fctzen. In sicherheitskritischen Bereichen wie der Medizin m\u00fcssen Vorhersagen einer KI jedoch nachvollziehbar sein.<\/p>\n","protected":false},"author":9,"featured_media":4555,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,546],"blog-tag":[1458,1480,1526,1533],"class_list":["post-4546","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-anwendung","blog-tag-convolutionale-neuronale-netze","blog-tag-deep-learning-de","blog-tag-ki-in-der-medizin","blog-tag-klassifikation"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4546","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4546\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4555"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4546"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4546"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4546"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}