{"id":4574,"date":"2021-01-13T04:07:55","date_gmt":"2021-01-13T04:07:55","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/aufbereitung-unvollstaendiger-daten-mit-markov-random-fields\/"},"modified":"2025-11-12T14:55:08","modified_gmt":"2025-11-12T14:55:08","slug":"aufbereitung-unvollstaendiger-daten-mit-markov-random-fields","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/aufbereitung-unvollstaendiger-daten-mit-markov-random-fields\/","title":{"rendered":"Aufbereitung unvollst\u00e4ndiger Daten mit Markov Random Fields"},"content":{"rendered":"\n<p>Unvollst\u00e4ndige Daten stellen ein immer wieder auftretendes Problem f\u00fcr Maschinelles Lernen dar. Mit Hilfe eines wahrscheinlichkeitsbasierten Verfahrens lassen sich jedoch die L\u00fccken solcher Datens\u00e4tze schlie\u00dfen, damit sie f\u00fcr weitere Verarbeitung nutzbar sind.<\/p>\n\n\n\n<p>Daten sind im Kontext des Maschinellen Lernens unabdingbar. In vielen Dom\u00e4nen k\u00f6nnen Datens\u00e4tze jedoch aufgrund von Fehlern bei der Messung oder Verarbeitung unvollst\u00e4ndig sein. Das zeigt sich zum Beispiel auch im <a href=\"https:\/\/archive.ics.uci.edu\/ml\/index.php\" target=\"_blank\" rel=\"noopener\">UCI Machine Learning Repository<\/a>, wo zwei der f\u00fcnf beliebtesten Datens\u00e4tze fehlende Eintr\u00e4ge beinhalten (\u201eAdult\u201c und \u201eHeart Disease\u201c). Bei Daten mit L\u00fccken ist das Lernen von Modellen oft schwierig, und in manchen F\u00e4llen sogar unm\u00f6glich. Allerdings k\u00f6nnen generative Verfahren helfen, indem sie unvollst\u00e4ndige Daten mit m\u00f6glichst sinnvollen Ann\u00e4herungen auff\u00fcllen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Wahrscheinlichkeitsbasierte Modellierung<\/span><\/h2>\n\n\n\n<p>Die Eintr\u00e4ge eines jeden Datensatzes lassen sich als konkrete Realisierungen eines Zufallsvektors interpretieren. Aufgrund der Unvollst\u00e4ndigkeit sind dann einzelne Komponenten des Vektors unbeobachtet. Je nach Datensatz k\u00f6nnen auch bei jedem Eintrag andere Komponenten fehlen. Bei der Modellierung des Zufallsvektors muss man im Allgemeinen auch ber\u00fccksichtigen, dass einzelne Komponenten statistisch abh\u00e4ngig voneinander sein k\u00f6nnen. Solche Abh\u00e4ngigkeiten lassen sich gut durch probabilistische graphische Modelle abbilden, zum Beispiel mit Markov Random Fields (MRFs).<\/p>\n\n\n\n<p>Bei MRFs werden die Abh\u00e4ngigkeiten durch einen ungerichteten Graphen beschrieben. Dabei wird vorausgesetzt, dass Realisierungen des Zufallsvektors aus einem diskreten Zustandsraum stammen, sodass manche Datens\u00e4tze zun\u00e4chst diskretisiert werden m\u00fcssen. MRFs erm\u00f6glichen, die multivariate Wahrscheinlichkeitsverteilung des Zufallsvektors zu berechnen. Marginalisierung erlaubt zudem, auch die Wahrscheinlichkeit&nbsp; f\u00fcr beliebige bedingte partielle Belegungen zu berechnen. Im Kontext eines unvollst\u00e4ndigen Datensatzes kann so die Sinnhaftigkeit verschiedener Vorhersagen f\u00fcr fehlende Eintr\u00e4ge untersucht werden. Vorher m\u00fcssen jedoch im Training die Parameter des MRFs basierend auf verf\u00fcgbaren Daten bestimmt werden. Klassisch wird daf\u00fcr eine Maximum-Likelihood-Sch\u00e4tzung durchgef\u00fchrt, die jedoch vollst\u00e4ndig beobachtete Daten ben\u00f6tigt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Parametersch\u00e4tzung mit unvollst\u00e4ndigen Daten<\/span><\/h2>\n\n\n\n<p>Das Training eines MRFs ist gl\u00fccklicherweise auch mit unvollst\u00e4ndigen Daten m\u00f6glich. Daf\u00fcr f\u00fchrt man die Maximum-Likelihood-Sch\u00e4tzung nach einem Erwartungs-Maximierungs-Schema durch. Im Kern werden also abwechselnd die fehlenden Teile des Datensatzes mithilfe von Sampling aufgef\u00fcllt, und anschlie\u00dfend die Parameter neu gesch\u00e4tzt.<\/p>\n\n\n\n<p>Im Falle von extrem gro\u00dfen L\u00fccken im Datensatz kann jedoch die Zuf\u00e4lligkeit des ersten Erwartungs-Schrittes (also zuf\u00e4lliges Samplen aus dem Zustandsraum) die Sch\u00e4tzung der initialen Parameter \u00fcberschatten. Um dem entgegenzuwirken, kann man statistisches Wissen aus den Daten abzuleiten, und dieses in Form von Regularisierung in die Parametersch\u00e4tzung einflie\u00dfen lassen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Rekonstruktion der Daten<\/span><\/h2>\n\n\n\n<p>Es stellt sich nun noch die Frage, wie man mithilfe des trainierten MRFs die L\u00fccken im Datensatz mit sinnvollen Werten f\u00fcllen kann. Das MRF erlaubt uns die Berechnung der Wahrscheinlichkeitsfunktion f\u00fcr bestimmte Belegungen, und somit den G\u00fctevergleich verschiedener Vorhersagen.<\/p>\n\n\n\n<p>Es l\u00e4sst sich auch eine in der Regel eindeutig wahrscheinlichste Belegung berechnen, der sogenannte Maximum-a-posteriori (MAP) Zustand. Im Falle von unvollst\u00e4ndigen Daten wird der MAP Zustand durch die zum Teil vorhandenen Beobachtungen bedingt. L\u00fccken im Datensatz lassen sich also schlie\u00dfen, indem man alle fehlenden Eintr\u00e4ge durch die MAP Vorhersage ersetzt. Alternativ kann man mit dem MRF auch die Wahrscheinlichkeit f\u00fcr verschiedene Vorhersagen berechnen, und diese gegebenenfalls kombinieren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Anwendung im Kontext von Satellitendaten<\/span><\/h2>\n\n\n\n<p>Satellitenbilder dienen als gutes Beispiel f\u00fcr unvollst\u00e4ndige Datens\u00e4tze. Sie sind seit Jahren fester Bestandteil der Forschung, zum Beispiel in den Bereichen Klimawandel und Untersuchung der Fl\u00e4chennutzung. Jedoch sind gro\u00dfe Teile der vom Weltraum erfassten Erdoberfl\u00e4che von Wolken verdeckt. Dementsprechend spielt bei der Verarbeitung von Satellitendaten das \u201cGap Filling\u201c eine wichtige Rolle. In der nachfolgenden Abbildung sieht man, wie mit unserem Ansatz Wolken auf den Bildern entfernt werden k\u00f6nnen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/lamarr-blog-Aufbereitung-unvollstaendiger-Daten-mit-Markov-Random-Fields.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24451\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Raphael Fischer \u2013 TU Dortmund<br>Die Satellitenbilder der zum Teil durch Wolken verdeckten Erdoberfl\u00e4che k\u00f6nnen mithilfe wahrscheinlichkeitsbasierter Modellierung rekonstruiert werden.<\/figcaption><\/figure>\n\n\n\n<p>Wie man sieht, erlauben uns die vorgestellten MRFs, selbst stark bew\u00f6lkte Aufnahmen zu rekonstruieren. F\u00fcr die r\u00e4umlich-zeitlichen Satellitendaten macht es Sinn, lediglich die lokale r\u00e4umliche Nachbarschaft der einzelnen Pixel zu modellieren, und das fertige Modell f\u00fcr die Aufbereitung \u00fcber den ganzen Datensatz zu \u201csliden\u201d. Im Gegensatz zu anderen Methoden ist unser Ansatz nicht auf Zusatzinformationen angewiesen und es werden auch keine Annahmen \u00fcber die vorliegenden Daten gemacht. Um die Vorhersage bei stark bew\u00f6lkten Bildern zu verbessern, kann empirisches Vorwissen direkt aus den Daten abgeleitet und beim Training in Form von Regularisierung ber\u00fccksichtigt werden. In Experimenten sind die MRF-basierten Vorhersagen f\u00fcr bew\u00f6lkte Teile messbar besser als Rekonstruktionen anderer Ans\u00e4tze. Dies zeigt sich auch im optischen Vergleich.<\/p>\n\n\n\n<p>Mehr Informationen im zugeh\u00f6rigen Paper:<\/p>\n\n\n\n<p><strong>No Cloud on the Horizon: Probabilistic Gap Filling in Satellite Image Series<\/strong><br>Raphael Fischer, Nico Piatkowski, Charlotte Pelletier, Geoffrey Webb, Fran\u00e7ois Petitjean, Katharina Morik. IEEE International Conference on Data Science and Advanced Analytics (DSAA), 2020, <a href=\"https:\/\/ieeexplore.ieee.org\/stamp\/stamp.jsp?tp=&amp;arnumber=9260084\" target=\"_blank\" rel=\"noreferrer noopener\">PDF<\/a>.<\/p>\n\n\n\n<figure class=\"wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\"><div class=\"wp-block-embed__wrapper\">\n <div class=\"brlbs-cmpnt-container brlbs-cmpnt-content-blocker brlbs-cmpnt-with-individual-styles\" data-borlabs-cookie-content-blocker-id=\"youtube-content-blocker\" data-borlabs-cookie-content=\"PGlmcmFtZSB0aXRsZT0iRFNBQSAyMDIwOiBObyBDbG91ZCBvbiB0aGUgSG9yaXpvbjogUHJvYmFiaWxpc3RpYyBHYXAgRmlsbGluZyBpbiBTYXRlbGxpdGUgSW1hZ2UgU2VyaWVzIiB3aWR0aD0iNjQwIiBoZWlnaHQ9IjM2MCIgc3JjPSJodHRwczovL3d3dy55b3V0dWJlLW5vY29va2llLmNvbS9lbWJlZC8tSUVsM2Zmd3Fodz9mZWF0dXJlPW9lbWJlZCIgZnJhbWVib3JkZXI9IjAiIGFsbG93PSJhY2NlbGVyb21ldGVyOyBhdXRvcGxheTsgY2xpcGJvYXJkLXdyaXRlOyBlbmNyeXB0ZWQtbWVkaWE7IGd5cm9zY29wZTsgcGljdHVyZS1pbi1waWN0dXJlOyB3ZWItc2hhcmUiIHJlZmVycmVycG9saWN5PSJzdHJpY3Qtb3JpZ2luLXdoZW4tY3Jvc3Mtb3JpZ2luIiBhbGxvd2Z1bGxzY3JlZW4+PC9pZnJhbWU+\"><div class=\"brlbs-cmpnt-cb-preset-c brlbs-cmpnt-cb-youtube\"> <div class=\"brlbs-cmpnt-cb-thumbnail\" style=\"background-image: url('https:\/\/lamarr-institute.org\/wp-content\/uploads\/borlabs-cookie\/1\/yt_-IEl3ffwqhw_hqdefault.jpg')\"><\/div> <div class=\"brlbs-cmpnt-cb-main\"> <div class=\"brlbs-cmpnt-cb-play-button\"><\/div> <div class=\"brlbs-cmpnt-cb-content\"> <p class=\"brlbs-cmpnt-cb-description\">Sie sehen gerade einen Platzhalterinhalt von <strong>YouTube<\/strong>. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfl\u00e4che unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.<\/p> <a class=\"brlbs-cmpnt-cb-provider-toggle\" href=\"#\" data-borlabs-cookie-show-provider-information role=\"button\">Mehr Informationen<\/a> <\/div> <div class=\"brlbs-cmpnt-cb-buttons\"> <a class=\"brlbs-cmpnt-cb-btn\" href=\"#\" data-borlabs-cookie-unblock role=\"button\">Inhalt entsperren<\/a> <a class=\"brlbs-cmpnt-cb-btn\" href=\"#\" data-borlabs-cookie-accept-service role=\"button\" style=\"display: inherit\">Erforderlichen Service akzeptieren und Inhalte entsperren<\/a> <\/div> <\/div> <\/div><\/div>\n<\/div><\/figure>\n","protected":false},"excerpt":{"rendered":"<p>Bei Daten mit L\u00fccken ist das Lernen von Modellen oft schwierig, und in manchen F\u00e4llen sogar unm\u00f6glich. Allerdings k\u00f6nnen generative Verfahren helfen, indem sie unvollst\u00e4ndige Daten mit m\u00f6glichst sinnvollen Ann\u00e4herungen auff\u00fcllen.<\/p>\n","protected":false},"author":9,"featured_media":4578,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,396],"blog-tag":[1514,1518,1563],"class_list":["post-4574","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-forschung","blog-tag-generative-ki","blog-tag-hybrides-maschinelles-lernen","blog-tag-probabilistisches-ml"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4574","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4574\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4578"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4574"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4574"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4574"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}