{"id":4708,"date":"2021-11-17T03:38:13","date_gmt":"2021-11-17T03:38:13","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/semantische-segmentierung\/"},"modified":"2025-11-12T14:54:47","modified_gmt":"2025-11-12T14:54:47","slug":"semantische-segmentierung","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/semantische-segmentierung\/","title":{"rendered":"Pflanzen laufen nicht auf der Stra\u00dfe: Mithilfe von menschlichem Wissen zu einer verl\u00e4sslichen semantischen Segmentierung"},"content":{"rendered":"\n<p>Tiefe neuronale Netze sind ein wesentlicher Bestandteil des autonomen Fahrens, da sie bei einer Reihe von Aufgaben, insbesondere bei der bildbasierten Umgebungswahrnehmung, un\u00fcbertroffene Leistungen erzielen. Dennoch sind sie anf\u00e4llig f\u00fcr zuf\u00e4llige oder gezielte St\u00f6rungen, was die Arbeit mit diesen Modellen in sicherheitskritischen Anwendungen erschwert. Etwaige St\u00f6rungen k\u00f6nnen nat\u00fcrliche Ursachen haben, wie \u00dcberbelichtung, Nebel, Schnee, oder k\u00fcnstlich und absichtlich erzeugt worden sein. Ein Beispiel hierf\u00fcr sind <a href=\"https:\/\/lamarr-institute.org\/de\/was-sind-adversarial-examples\/\" target=\"_blank\" rel=\"noreferrer noopener\">gegnerische Angriffe<\/a>.<\/p>\n\n\n\n<p>Gezielt herbeigef\u00fchrte Fehler in Vorhersagen sind f\u00fcr menschliche Betrachter meist offensichtlich: Denn Menschen wenden intuitiv mehrere Regeln auf der Grundlage ihres Wissens und ihrer Erfahrung an, um zu erkennen, was in einer bestimmten Szene geschieht. Neuronale Netze in ihrer gegenw\u00e4rtigen Form zielen darauf ab, diese Regeln implizit aus Daten zu lernen. Das erfordert die Erfassung und Annotation gro\u00dfer Mengen von Eingaben und birgt dar\u00fcber hinaus die Gefahr, falsche Korrelationen anzunehmen. Die Integration von Szenenwissen in das Training oder die Inferenz neuronaler Netze scheint eine L\u00f6sung zu sein. Allerdings reicht <a href=\"https:\/\/arxiv.org\/abs\/1903.12394\" target=\"_blank\" rel=\"noopener\">dieses Wissen<\/a> von \u00dcberlegungen zur Szenengeometrie \u00fcber allgemeines Wissen bis hin zu Regeln des menschlichen Verhaltens und wird damit zu einer komplexen Herausforderung. Es gibt dabei nicht nur eine Reihe von konkurrierenden Ans\u00e4tzen zur Integration von Wissen, sondern auch mehrere M\u00f6glichkeiten, dieses Wissen selbst darzustellen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Probabilistic Soft Logic f\u00fcr die Wissensaufnahme<\/span><\/h2>\n\n\n\n<p>Wir untersuchen eine Methode zur Darstellung von Wissen in Form von Beziehungen, die als logische Regeln zwischen identifizierten Objekten in einer Verkehrsszene beschrieben werden, und analysieren, wie diese Beziehungen zur Robustheit der datengesteuerten Umgebungswahrnehmung genutzt werden k\u00f6nnen. W\u00e4hrend mehrere bestehende Forschungslinien ausschlie\u00dflich Dom\u00e4nenwissen f\u00fcr die Erstellung eines Modells verwenden, ist es unser Ziel, den datengesteuerten Ansatz und High-Level-Wissen im Rahmen der Inferenz zu kombinieren.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Crosswalk.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25000\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Fraunhofer IAIS <br>Um Verkehrsszenen zu verstehen und dar\u00fcber nachzudenken, orientieren sich die meisten Menschen anhand von Beziehungen zwischen Objekten. Unter der Voraussetzung, dass alle Objekte identifiziert wurden, kann das gemeinsame Wissen \u2013 das sowohl das Verhalten als auch die Merkmale beschreibt \u2013 in Form von Regeln abgegrenzt werden.<\/figcaption><\/figure>\n\n\n\n<p>Bei verschiedenen Verkehrsszenen kann der Mensch typischerweise allgemeines und empirisches Wissen \u00fcber das Verhalten und die Merkmale von Objekten nutzen, um auf ihre Art und Beziehungen innerhalb der Szene zu schlie\u00dfen. Dies gilt auch f\u00fcr ungesehene Szenarien. Dieses allgemeine Wissen, das verschiedene Merkmale und Beziehungen von Objekten ber\u00fccksichtigt, kann teilweise als eine Reihe einfacher Regeln kodiert werden. Die Art und Weise, wie ein Mensch \u00fcber seine Umgebung nachdenkt, kann jedoch nicht auf strenger Boolescher Logik basieren, bei der Regeln strikt wahr oder falsch sind. Ein Objekt, unter dem ein Zebrastreifen verl\u00e4uft und das in der N\u00e4he eines Verkehrsschildes steht, ist mit hoher Wahrscheinlichkeit ein Mensch. Es besteht aber auch die M\u00f6glichkeit, dass es sich um ein anderes Objekt handelt, zum Beispiel um einen Hund oder ein Hindernis auf einer Baustelle. Um solch hochrangiges menschliches Wissen auf die gleiche &#8222;unsichere&#8220; Weise in ein neuronales Netz zu integrieren, m\u00fcssen wir logische Regeln mit \u201elockeren\u201c Wahrheitswerten definieren. Zu diesem Zweck adaptieren wir das <a href=\"http:\/\/cs.brown.edu\/people\/sbach\/files\/kimmig-probprog12.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Probabilistic Soft Logic (PSL) Framework<\/a>, um Beziehungen zwischen Objekten in der Umgebung zu definieren und zu lernen. Wir haben PSL aus zwei Gr\u00fcnden als Rahmen f\u00fcr die Wissensrepr\u00e4sentation gew\u00e4hlt:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Erstens erlaubt sie uns die flexible Verwendung von weichen Wahrheitswerten, die sowohl f\u00fcr die Definition strenger als auch lockerer Regeln geeignet sind.<\/li>\n\n\n\n<li>Zweitens k\u00f6nnen anhand von Daten Feinabstimmungen vorgenommen werden, das hei\u00dft aus den gegebenen Annotationen kann direkt Wissen h\u00f6chster Qualit\u00e4t gewonnen werden.<\/li>\n<\/ul>\n\n\n\n<p>Das \u00fcbergeordnete Ziel des Einsatzes von PSL f\u00fcr die kamerabasierte Wahrnehmung beim autonomen Fahren besteht darin, leicht extrahierbare Teile des allgemeinen Wissens \u00fcber die Verkehrsszene zu nutzen und sie in einer Form darzustellen, die eine Integration in die Inferenz des neuronalen Netzes erm\u00f6glicht.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Bild2-1024x246.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25002\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Geyer, Jacob et al. (2020): A2D2: Audi Autonomous Driving Dataset (https:\/\/www.a2d2.audi) <br>Schritte zur Beschreibung der Umgebung als Regeln. Ein Beispiel f\u00fcr eine Regel f\u00fcr diesen Frame mit ausgew\u00e4hlten Objekten kann lauten: \u201cSteht_auf_Fu\u00dfg\u00e4ngerweg \u22c0 Steht_nahe_Ampel \u2192 Klasse_ist_Fu\u00dfg\u00e4nger\u201d.<\/figcaption><\/figure>\n\n\n\n<p>Zun\u00e4chst m\u00fcssen wir jedoch die Objekte identifizieren, \u00fcber die wir Schlussfolgerungen ziehen wollen, sowie deren Beziehungen, die in ausgew\u00e4hlten Pr\u00e4dikaten kodiert sind. Dann definieren wir einen Satz von Regeln, der zus\u00e4tzliches relationales Wissen \u00fcber den Bereich, der von Interesse ist, enth\u00e4lt. Dieses Wissen ist dadurch gekennzeichnet, das es noch nicht durch die annotierten Daten abgedeckt ist und somit zur Unterst\u00fctzung und Validierung der Wahrnehmungsaufgabe eingesetzt werden kann. Bei der Definition eines initialen Regelsatzes m\u00fcssen die Objekte, die verbunden werden, sorgf\u00e4ltig ausgew\u00e4hlt werden: Sowohl die Beschreibung ihres Verhaltens als auch ihre Extraktion aus den Rohdaten sollte einfach sein.<\/p>\n\n\n\n<p>F\u00fcr unsere Studie haben wir Fu\u00dfg\u00e4nger*innen, Verkehrsschilder und Verkehrssignale als drei Arten von Objekten ausgew\u00e4hlt, f\u00fcr die wir Klassen ableiten wollen. Wir setzen ein Orakel ein, um die Objektentit\u00e4ten zu extrahieren und vernachl\u00e4ssigen dabei zus\u00e4tzliche Herausforderungen, die sich aus einer unzuverl\u00e4ssigen Objektextraktion ergeben. Das Orakel wird durch die zusammenh\u00e4ngenden Komponenten imitiert, die in der Ground-Truth-Segmentierung gefunden wurden, wobei eine zus\u00e4tzliche Gl\u00e4ttung vorgenommen wird, um zerbrochene Objekte aufgrund von Verdeckungen zu vermeiden.<\/p>\n\n\n\n<p>Wir entwickeln einen ersten Satz von Regeln, deren Gewichtung (das hei\u00dft wie hoch die Wahrscheinlichkeit ist, dass sie zutreffen) wir sp\u00e4ter verfeinern. Die logischen Schlussfolgerungen f\u00fcr eine Objektklasse st\u00fctzen wir dann auf die semantischen Merkmale, auf die Umgebung der Objekte und auf ihre Beziehungen. Die Umgebungen der Objekte werden anhand der Beobachtungen beschrieben, zum Beispiel was sich unter oder hinter dem Objekt befindet. Au\u00dferdem integrieren wir Farbe als semantisches Merkmal, da sie f\u00fcr Verkehrsschilder und Verkehrssignale besonders wichtig ist. Die Regeln, die wir mit Hilfe des Farbpr\u00e4dikats definiert haben, sind zum Beispiel inspiriert von den offiziell festgelegten Farbkombinationen g\u00e4ngiger deutscher Verkehrsschilder. Die Beziehungen zwischen den Objekten werden als Abstandswert auf der Grundlage von Tiefenmessungen angegeben.<\/p>\n\n\n\n<p>In der letzten Stufe muss das \u00fcber probabilistische Regeln gewonnene Wissen aus dem Datensatz mit den Vorhersagen des neuronalen Netzes, in diesem Fall den semantischen Segmentierungsmasken, kombiniert werden. F\u00fcr unsere konzeptionelle Demonstration verfolgen wir einen vereinfachten Ansatz, bei dem die aus dem Netz gewonnenen Ergebnisse als vorherige Annahmen in den regelbasierten Rahmen integriert werden.<\/p>\n\n\n\n<p>Insgesamt l\u00e4sst sich der praktische Ansatz wie folgt beschreiben:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Identifizierung<\/strong> <strong>von Objekten<\/strong>, \u00fcber die Schlussfolgerungen gezogen werden sollen und Extraktion dieser Objekte aus den Sensordaten (Orakel unter Verwendung der semantischen Segmentierung der Grundwahrheit)<\/li>\n\n\n\n<li><strong>Konstruktion<\/strong> <strong>des Regelsatzes<\/strong> unter Verwendung von Expert*innen- und Allgemeinwissen<\/li>\n\n\n\n<li><strong>Vorbereitung<\/strong> <strong>der<\/strong> <strong>erforderlichen Informationen<\/strong> von Sensoren der unteren Ebene f\u00fcr die Inferenz der Regeln (Tiefe, Farben)<\/li>\n\n\n\n<li><strong>Lernen<\/strong> <strong>der<\/strong> <strong>Gewichtung der Regeln<\/strong> mit Hilfe eines Trainingssatzes von aufgezeichneten Kamerabildern<\/li>\n\n\n\n<li><strong>Durchf\u00fchrung<\/strong> <strong>der<\/strong> <strong>Inferenz<\/strong> mit dem neuronalen Netz und den Regeln auf dem Testsatz von Bildern zur Validierung, m\u00f6glicherweise unter Verwendung vorheriger Netzausgaben<\/li>\n<\/ol>\n\n\n\n<p>Den beschriebenen Aufbau haben wir anhand der nat\u00fcrlichen Verf\u00e4lschungen der Bilder bewertet. Die ersten Experimente zeigen die Durchf\u00fchrbarkeit der beschriebenen Pipeline und ihre positiven Auswirkungen auf die Robustheit der Segmentierungsvorhersagen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Fazit<\/h2>\n\n\n\n<p>Durch die Nutzung menschlichen Wissens ziehen wir Informationen aus verschiedenen Bereichen heran: von Sensoreingaben, wie der Farbe eines Objekts, bis hin zu Szeneneigenschaften, wie den Beziehungen und Abst\u00e4nden zwischen Objekten. Dieser Ansatz erm\u00f6glicht es uns, zus\u00e4tzliche Informationen in die datengesteuerten Modellvorhersagen einzubeziehen und die Zuverl\u00e4ssigkeit der Vorhersagen durch Schlussfolgerungen zu verbessern.<\/p>\n\n\n\n<p><a href=\"https:\/\/openaccess.thecvf.com\/content\/CVPR2021W\/SAIAD\/papers\/Adilova_Plants_Dont_Walk_on_the_Street_Common-Sense_Reasoning_for_Reliable_CVPRW_2021_paper.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Diese Studie<\/a> zeigt, welche Vorteile gemeinsames Wissen f\u00fcr die Zuverl\u00e4ssigkeit eines maschinellen Lernsystems haben kann. Zu diesem fr\u00fchen Zeitpunkt haben wir den m\u00fchsamen Schritt vernachl\u00e4ssigt, die Entit\u00e4ten zu ermitteln, \u00fcber die das PSL-Framework entscheidet. In der Praxis m\u00fcssen diese Informationen aus verschiedenen, h\u00f6chstwahrscheinlich nicht v\u00f6llig zuverl\u00e4ssigen Quellen zusammengetragen werden, die beispielsweise von zus\u00e4tzlichen Sensoren (zum Beispiel LIDAR) oder alternativen Verarbeitungsmethoden stammen. Ein weiterer wichtiger Schritt ist die Einbeziehung menschlicher Expert*innen bei der Formulierung von Regeln. Die in dieser Arbeit verwendeten Regeln werden mit dem allgemeinen Wissen \u00fcber die Fahrsituationen und Umgebungen formuliert, aber sowohl spezifischere Regeln als auch solche Regeln, die einen bestimmten Aspekt der Erkennung abstimmen, ben\u00f6tigen mehrere Iterationen w\u00e4hrend des Konstruktionsprozesses.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Die datengesteuerte Sensorinterpretation beim autonomen Fahren kann manchmal zu sehr unplausiblen Vorhersagen f\u00fchren. Ein teils von Menschen entworfener, teils gelernter Regelsatz kann bestehende tiefe neuronale Netze, die Low-Level-Sensorinformationen verarbeiten, zuverl\u00e4ssig machen.<\/p>\n","protected":false},"author":9,"featured_media":4713,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,396],"blog-tag":[1449,1476,1563,1590,1593],"class_list":["post-4708","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-forschung","blog-tag-autonomes-fahren","blog-tag-datenanalyse","blog-tag-probabilistisches-ml","blog-tag-robustheit","blog-tag-sichere-ki"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4708","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4708\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4713"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4708"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4708"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4708"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}