{"id":4445,"date":"2021-07-14T03:58:30","date_gmt":"2021-07-14T03:58:30","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/robustheit-neuronaler-netze\/"},"modified":"2025-11-12T14:53:40","modified_gmt":"2025-11-12T14:53:40","slug":"robustheit-neuronaler-netze","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/robustheit-neuronaler-netze\/","title":{"rendered":"Vorfahrt f\u00fcr sicheres Maschinelles Lernen: Zur Robustheit Neuronaler Netze"},"content":{"rendered":"\n<p>Neuronale Netze eignen sich sehr gut f\u00fcr die Klassifikation von Bildern und finden bereits heute vielfach Verwendung. Sie liefern hierbei herausragende Ergebnisse auf Benchmark-Datens\u00e4tzen, wie dem <a href=\"https:\/\/paperswithcode.com\/sota\/image-classification-on-imagenet\" target=\"_blank\" rel=\"noopener\">ImageNet-Datensatz<\/a> (90% Erfolgsrate), und sind ein beliebtes Mittel, um Bildverarbeitungsaufgaben verschiedenster Art zu l\u00f6sen. Dazu z\u00e4hlen die <a href=\"https:\/\/www.krebsinformationsdienst.de\/fachkreise\/nachrichten\/2019\/fk22-kuenstliche-intelligenz-medizin.php\" target=\"_blank\" rel=\"noopener\">Analyse von medizinischen Bildern<\/a>, zum Beispiel <a href=\"https:\/\/arxiv.org\/pdf\/1811.10052.pdf\" target=\"_blank\" rel=\"noopener\">MRT-Scans<\/a>, die <a href=\"https:\/\/onlinelibrary.wiley.com\/doi\/10.1002\/biuz.201970211\" target=\"_blank\" rel=\"noopener\">Bestimmung von Pflanzenarten<\/a> anhand von Fotos und die Klassifikation von Verkehrszeichen im autonomen Fahren. Feindliche Angriffe auf diese Vorhersagemodelle des Maschinellen Lernens, so auch im Stra\u00dfenverkehr, k\u00f6nnten hier zu gro\u00dfem (Personen-)Schaden f\u00fchren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Drei Lernphasen eines Neuronalen Netz-Klassifikators<\/span><\/h2>\n\n\n\n<p>Mittels Neuronaler Netze (NN) k\u00f6nnen Eigenschaften, zum Beispiel aus Trainingsbildern, zu einzelnen Klassen zugeordnet werden. Zu diesem Zweck m\u00fcssen die Klassen der Trainingsbeispiele vorab bekannt sein. Die Unterscheidung der Klassen anhand der vorhandenen Bildmerkmale kann von einem Neuronalen Netz gelernt werden. Dabei handelt es sich um eine Unterscheidungsfunktion, wodurch Bilder in eine der bekannten Klassen sortiert werden k\u00f6nnen (Hinweis: In manchen Anwendungsf\u00e4llen gibt es eine zus\u00e4tzliche R\u00fcckweisungsklasse, falls keine der bekannten Klassen zutrifft). Diese Funktion wird auch Klassifikator genannt. Im Beitrag zum <a href=\"https:\/\/lamarr-institute.org\/de\/tiefe-neuronale-netze\/\">Deep Learning<\/a> finden Sie eine tiefer gehende Erkl\u00e4rung zur Funktionsweise Neuronaler Netze.<\/p>\n\n\n\n<p>Das Anlernen eines NN-Klassifikators besteht aus mehreren Phasen, wobei zu den jeweiligen Phasen verschiedene Daten betrachtet werden. In diesem Fall betrachten wir <a href=\"https:\/\/lamarr-institute.org\/de\/welche-arten-von-maschinellem-lernen-gibt-es\/\">\u00fcberwachtes Lernen<\/a>, bei dem es bestimmte Feedback-Schleifen gibt.<\/p>\n\n\n\n<p><strong>Trainingsphase<\/strong>: Aus Trainingsdaten extrahiert das Netzwerk bestimmte Eigenschaften, mit denen dann die Klassifikationsfunktion gebildet wird.<\/p>\n\n\n\n<p><strong>Validierungsphase: <\/strong>Anschlie\u00dfend wird mit anderen Bildern die Klassifikationsleistung bestimmt. Mit dem Ergebnis wird die gelernte Unterscheidung der Klassen angepasst, sodass das Netzwerk zuk\u00fcnftig ein besseres Ergebnis liefert.<\/p>\n\n\n\n<p>Mit dieser verbesserten Klassifikationsfunktion wird nun wieder eine Trainingsphase durchlaufen und deren Ergebnis im Anschluss wieder validiert. Dieses Vorgehen wird so lange durchgef\u00fchrt, bis eine gewisse Anzahl an Durchl\u00e4ufen erreicht wurde.<\/p>\n\n\n\n<p><strong>Testphase<\/strong>: Am Ende des Trainings wird, mit einer dem Netzwerk bisher unbekannten Testmenge, die finale Klassifikationsleistung bestimmt.<\/p>\n\n\n\n<p>Wichtig ist, dass die verschiedenen Mengen keine gleichen Elemente beinhalten, da das Netzwerk sonst einfach nur die gegebenen Bilder auswendig lernt, anstatt Eigenschaften der Bilder zu analysieren. Au\u00dferdem kann es vorkommen, dass in der Validierungsphase sehr gute Ergebnisse erzielt werden, doch bei der finalen Testung keine gute Klassifikation zu beobachten ist. Dieses Ph\u00e4nomen bezeichnet man als <em>Overfitting<\/em>, wobei die Klassifikation zu sehr an die bekannten Trainings- und Validierungsdaten angepasst worden ist.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Datensatz_Split-1.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24808\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Aufteilung des Datensatzes in Trainingsmenge, Validierungsmenge und Testmenge<\/figcaption><\/figure>\n\n\n\n<p>Die Angriffsfl\u00e4che eines Netzes l\u00e4sst sich im Hinblick auf die Informationen und M\u00f6glichkeiten definieren, \u00fcber die ein Angreifer verf\u00fcgt. Je mehr Informationen ein Angreifer \u00fcber ein maschinelles Lernmodell hat, desto mehr Optionen f\u00fcr einen Angriff bieten sich ihm und desto pr\u00e4ziser k\u00f6nnen Angriffe auf ein Modell abgestimmt werden. Es ist m\u00f6glich, in jeder der drei obig beschriebenen Phasen des Lernprozesses ein Modell zu korrumpieren.<\/p>\n\n\n\n<p>Am h\u00e4ufigsten passieren Angriffe auf fertig trainierte und getestete Modelle durch die sogenannten <em>Explorativen Attacken, <\/em>bei denen versucht wird, eine falsche Klassifikation zu erzeugen oder Informationen \u00fcber das Modell zu erhalten. Hierzu z\u00e4hlen zum Beispiel Spam-Emails, die mit geschickter Ver\u00e4nderung des Inhalts, wie absichtlichen Rechtschreibfehlern, nicht durch Spamfilter erkannt und herausgefiltert werden. In diesem Fall hat ein Angreifer keinen Zugriff auf den Trainingsprozess oder die Struktur des Modells, sondern hat nur die M\u00f6glichkeit, Daten an das trainierte Modell zu \u00fcbergeben. Daher fallen diese Art der Angriffe in die Testphase, in der kein Einfluss auf das Modell genommen wird.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">White-Box und Black-Box-Angriffe<\/h2>\n\n\n\n<p>Prinzipiell lassen sich Angriffe zur Testphase nach den Informationen des Angreifers \u00fcber das Modell aufteilen. Dabei lassen sich White-Box- und Black-Box-Angriffe unterteilen.<\/p>\n\n\n\n<p>Bei einem <strong>White-Box-Angriff<\/strong> hat der Angreifer Wissen \u00fcber die Struktur des Netzwerks, \u00fcber die Art des Trainingsverfahrens und \u00fcber die vorliegenden Daten, mit denen das Netz trainiert wird. So ist es ihm m\u00f6glich, das Modell und seine Schwachstellen zu analysieren sowie bewusst kleine Abweichungen in Daten einzubauen und eine Fehlklassifikation zu erzeugen.<\/p>\n\n\n\n<p>In einem <strong>Black-Box-Szenario<\/strong> hat ein Angreifer dieses Wissen nicht, sondern sieht nur die Eingabedaten und die Ergebnisse, die das Netzwerk dazu ausgibt. W\u00e4hrend eines Angriffs werden dann beispielweise verschiedene verf\u00e4lschte Bilder in das Netzwerk gegeben und anhand des Outputs eruiert, wo im Neuronalen Netz m\u00f6gliche Schwachstellen sein k\u00f6nnten. Grundlegende Informationen zu den manipulierten Inputs finden Sie in unserem Beitrag zu den sogenannten <a href=\"https:\/\/machinelearning-blog.de\/grundlagen\/was-sind-adversarial-examples\/\" target=\"_blank\" rel=\"noreferrer noopener\">Adversarial Examples<\/a>.<\/p>\n\n\n\n<p>Ziel dieser Angriffe ist es gleicherma\u00dfen eine Fehlklassifikation des Netzes hervorzurufen und augenscheinlich so wenig \u00c4nderungen wie m\u00f6glich an den Ursprungsdaten vorzunehmen. So kann ein Mensch nicht feststellen, dass ein Angriff ausge\u00fcbt wurde. Die herbeigef\u00fchrte Fehlklassifikation des Neuronalen Netzes kann in der Praxis zudem massive Auswirkungen haben. So k\u00f6nnte sie verhindern, dass ein autonomes Fahrzeug ein Verkehrszeichen korrekt erkennt und sich dementsprechend verh\u00e4lt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Anwendung einer Black-Box-Attacke<\/h2>\n\n\n\n<p>Wie leicht die Klassifikation eines maschinellen Lernverfahrens gebrochen werden kann, zeigen wir in folgendem Beispiel:<\/p>\n\n\n\n<p>Dabei arbeiten wir auf einem <a href=\"https:\/\/benchmark.ini.rub.de\/\" target=\"_blank\" rel=\"noopener\">Datensatz<\/a> deutscher Verkehrszeichen der Ruhr Universit\u00e4t Bochum (GTSRB). Auf diesen Daten wird ein Klassifikations-Modell trainiert. Mithilfe der <a href=\"https:\/\/github.com\/Trusted-AI\/adversarial-robustness-toolbox\" target=\"_blank\" rel=\"noopener\">Adversarial Robustness <em>Toolbox<\/em><\/a> von LF AI bzw. IBM lassen sich verschiedene Angriffe ausf\u00fchren. Wir nutzen hier beispielsweise die Hop-Skip-Jump Attacke. Bei diesem Black-Box-Angriff wird iterativ nach guten Adversarial Examples gesucht, die also das Ausgangsbild m\u00f6glichst wenig ver\u00e4ndern und gleichzeitig das ML-Modell hoch wirksam angreifen. Schlussendlich wird das beste Example f\u00fcr den Angriff genutzt.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Attack-1.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24810\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Von links nach rechts: Iterative Suche nach einem guten, also m\u00f6glichst wenig ver\u00e4ndernden, Adversarial Example durch das Hop-Skip-Jump Verfahren mit gleichzeitiger Klassifikation durch das Modell. Ganz rechts: das Original-Bild zum Vergleich. Der Angriff erzeugt eine marginale Ver\u00e4nderung der Werte, sodass das resultierende Bild vom Netzwerk nicht mehr als Stoppschild, sondern als Signal einer Vorfahrtsstra\u00dfe erkannt wird.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Abwehr einer Black-Box-Attacke<\/h2>\n\n\n\n<p>Unser Beispiel verdeutlicht die Gefahren feindlicher Angriffe auf Vorhersagemodelle des Maschinellen Lernens. Im konkreten Anwendungsfall nahmen wir zur Abwehr des Angriffs Adversarial Examples in die Trainingsdaten auf. Manipulierte Daten wurden so zu einem gewissen Anteil durch das ML-Modell mitgelernt, wodurch dessen Klassifikation nicht so leicht gebrochen werden kann. Wir haben daf\u00fcr <a href=\"https:\/\/arxiv.org\/abs\/1511.04599\" target=\"_blank\" rel=\"noopener\"><em>DeepFool<\/em><\/a> genutzt. Dies ist ein Generator f\u00fcr Adversarial Examples, der speziell f\u00fcr tiefe neuronale Netze manipulierte Bilder erzeugt und ebenfalls in der Adversarial Robustness Toolbox enthalten ist. Weil das Netzwerk damit bereits im Training bestimmte Manipulationsmuster lernt, m\u00fcssen Angriffe \u00fcber das Hop-Skip-Jump Verfahren spezifischer werden. In unserem Anwendungsfall reichte nach der von uns gefahrenen Abwehrstrategie die blo\u00dfe Manipulation durch den Angriff daher nicht mehr aus, um das Modell zu einer Fehlklassifikation zu bringen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Defense-1-1024x260.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24812\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Die iterative Suche im Hop-Skip-Jump Verfahren passt sich dem robusteren Modell an und verfeinert die Manipulation. Diese ist nur noch \u00fcber die Differenz zum Originalbild ersichtlich. Die \u00c4nderungen reichen nicht mehr aus, um die Klassifikation zu verf\u00e4lschen.<\/figcaption><\/figure>\n\n\n\n<p>So vielseitig wie die Angriffsformen auf Modelle des Maschinellen Lernens sind auch die durch die Forschungscommunity entwickelten Gegenma\u00dfnahmen. Daher sollte in der Entwicklung industrieller und produktiver Systeme mit K\u00fcnstlicher Intelligenz immer die Robustheit gegen\u00fcber Angriffen bedacht werden. Bei Bedarf k\u00f6nnen mit den vorhandenen Abwehrmechanismen die maschinellen Lernverfahren und resultierenden Modelle zu einem gewissen Grad gesch\u00fctzt werden. Einen \u00dcberblick \u00fcber verschiedene <a href=\"https:\/\/lamarr-institute.org\/de\/was-sind-adversarial-examples\/\">Abwehrstrategien gegen Adversarial Examples<\/a> gibt der Beitrag unserer Kollegin Linara Adilova.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Feindliche Angriffe auf Vorhersagemodelle des Maschinellen Lernens, zum Beispiel beim autonomen Fahren, k\u00f6nnten zu gro\u00dfem (Personen-)Schaden f\u00fchren. Mit Hilfe von Abwehrmechanismen k\u00f6nnen ML-Modelle gesch\u00fctzt und ihre Robustheit gegen\u00fcber Angriffen erh\u00f6ht werden.<\/p>\n","protected":false},"author":9,"featured_media":4452,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,546],"blog-tag":[1422,1449,1460,1558,1590,1593,1615],"class_list":["post-4445","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-anwendung","blog-tag-adversarial-attacks-de","blog-tag-autonomes-fahren","blog-tag-cybersicherheit","blog-tag-neuronale-netze","blog-tag-robustheit","blog-tag-sichere-ki","blog-tag-ueberwachtes-lernen"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4445","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4445\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4452"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4445"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4445"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4445"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}