{"id":4360,"date":"2023-03-07T05:00:42","date_gmt":"2023-03-07T05:00:42","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/support-vector-machines\/"},"modified":"2025-11-12T14:51:37","modified_gmt":"2025-11-12T14:51:37","slug":"support-vector-machines","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/support-vector-machines\/","title":{"rendered":"Was sind Support Vector Machines und wie funktionieren sie?"},"content":{"rendered":"\n<p>Support Vector Machines (SVM) sind \u00fcberwachte Lernverfahren, welche vornehmlich bei Klassifikationsproblemen zum Einsatz kommen. Ihre Aufgabe ist es, auf Basis einer Menge von Datenpunkten und deren Klassenzugeh\u00f6rigkeit ein Model zu erzeugen, welches die Klasse neuer Datenpunkte m\u00f6glichst korrekt bestimmt. SVMs sind vielseitig einsetzbar und finden unter anderem Anwendung in der Text- und Bildklassifikation.<\/p>\n\n\n\n<p>F\u00fcr einen Einstieg in das Thema Klassifikation empfiehlt sich der Beitrag <a href=\"https:\/\/lamarr-institute.org\/de\/ml-klassifikation\/\" target=\"_blank\" rel=\"noreferrer noopener\">Klassifikation im Maschinellen Lernen von Sebastian M\u00fcller<\/a>. W\u00e4hrend SVMs mit beliebig dimensionalen Daten umgehen k\u00f6nnen, beschr\u00e4nken sich die folgenden Beispiele zur vereinfachten Visualisierung auf Daten aus dem 2-dimensionalen bzw. 3-dimensionalen Raum.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Funktionsweise<\/span><\/h2>\n\n\n\n<p>Das grundlegende Prinzip von SVMs verfolgt einen verbl\u00fcffend einfachen Ansatz: Es besteht darin, eine Ebene &#8211; die sogenannte <em>trennende Hyperebene<\/em> &#8211; zu bestimmen, welche Datenpunkte bez\u00fcglich ihrer Klassenzugeh\u00f6rigkeit voneinander trennt. Im Folgenden 2-dimensionalen Beispiel (Abb. 1) entspricht die Hyperebene einer einfachen Geraden, welche die roten und blauen Punkte voneinander trennen soll. Um die Klasse eines neuen Datenpunktes zu ermitteln, reicht es dann aus, zu pr\u00fcfen, auf welcher Seite der Hyperebene der Punkt liegt. Da theoretisch unendlich viele solcher Hyperebenen existieren, stellt sich die Frage, wie genau diese gew\u00e4hlt werden sollte.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"940\" height=\"767\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/hyperplane_choice.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-16882\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/hyperplane_choice.png 940w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/hyperplane_choice-300x245.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/hyperplane_choice-768x627.png 768w\" sizes=\"auto, (max-width: 940px) 100vw, 940px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Till Schulz <br>Abbildung 1: Hyperebenen $h_1$ und $h_2$ klassifizieren den neuen Punkt (abgebildet in schwarz) nachvollziehbar als blauen Punkt, wohingegen $h_3$ den Punkt der roten Klasse zuordnet.<\/figcaption><\/figure>\n\n\n\n<p>Um die Klassen m\u00f6glichst sauber voneinander zu trennen, w\u00e4hlen SVMs diejenige Hyperebene, welche die Distanzen zu den am n\u00e4chsten gelegenen Punkten beider Klassen maximieren. Anders formuliert liegt die optimale Hyperebene in der Mitte eines maximal breiten Streifens, genannt <em>Margin<\/em>, welche die zwei Klassen voneinander trennt. Es handelt sich daher um ein klassisches <a href=\"https:\/\/lamarr-institute.org\/de\/optimierung-im-maschinellen-lernen\/\" target=\"_blank\" rel=\"noreferrer noopener\">Optimierungsproblem<\/a>, das sich mit herk\u00f6mmlichen Methoden wie zum Beispiel dem Gradientenverfahren l\u00f6sen l\u00e4sst<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"936\" height=\"767\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/optimal_hyperplane_de.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-16884\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/optimal_hyperplane_de.png 936w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/optimal_hyperplane_de-300x246.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/optimal_hyperplane_de-768x629.png 768w\" sizes=\"auto, (max-width: 936px) 100vw, 936px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Till Schulz <br>Abbildung 2: Die von der SVM gew\u00e4hlte optimale Hyperebene maximiert den Abstand zu den beiden Klassengrenzen (Margin).<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Soft Margin SVM<\/h2>\n\n\n\n<p>In den allermeisten F\u00e4llen sind die Daten allerdings nicht linear separierbar wie bisher angenommen. Das hei\u00dft, aufgrund von ung\u00fcnstigen Datenverteilungen mag der Fall eintreten, dass keine Hyperebene existiert, welche die Klassen perfekt voneinander trennt. F\u00fcr solche F\u00e4lle l\u00e4sst sich das Prinzip der SVMs etwas erweitern. Die sogenannte <em>Soft Margin SVM<\/em> erlaubt einen gewissen Grad an Fehlern bei der Klassifikation der Trainingsdaten. Datenpunkte d\u00fcrfen dabei in die Margin oder gar auf die falsche Seite der Hyperebene fallen. Anstatt nur eine maximal breite Margin zu ermitteln, w\u00e4hlen Soft Margin SVMs die Klassengrenzen zus\u00e4tzlich so, dass die Summe der Distanzen zu allen in oder jenseits der Margin gelegenen Punkte minimiert wird (Abb. 3). Soft Margin SVMs verfolgen also gleich zwei Ziele: Die Margin soll maximiert werden, w\u00e4hrend der Fehler durch falsche Klassifikationen minimiert wird. Dieser Trade-off zwischen beiden Zielen wird durch einen Parameter (\u00fcblicherweise C genannt) bestimmt. Kleine Werte f\u00fcr C vergr\u00f6\u00dfern tendenziell die Margin. Gleichzeitig werden dadurch mehr Klassifikationsfehler der Trainingsbeispiele toleriert. \u00dcblicherweise ist das Ermitteln eines geeigneten Wertes f\u00fcr C Teil des Lernverfahrens.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"948\" height=\"767\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/soft_margin_svm_de.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-16886\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/soft_margin_svm_de.png 948w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/soft_margin_svm_de-300x243.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/soft_margin_svm_de-768x621.png 768w\" sizes=\"auto, (max-width: 948px) 100vw, 948px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Till Schulz <br>Abbildung 3: Um ein gewisses Ma\u00df an Fehlern zu erlauben, versuchen Soft Margin SVMs die Distanzen zu falsch klassifizierten oder innerhalb der Margin gelegenen Punkten zu minimieren.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Kernel Trick<\/h2>\n\n\n\n<p>Leider l\u00f6st auch die Soft Margin SVM nicht alle Probleme. Um mit kniffligen F\u00e4llen wie im folgenden Beispiel (Abb. 4) abgebildet umzugehen, muss etwas nachgeholfen werden, um die Daten linear separierbar zu machen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"829\" height=\"767\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/non_lin_separable.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-16889\" title=\"\" srcset=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/non_lin_separable.png 829w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/non_lin_separable-300x278.png 300w, https:\/\/lamarr-institute.org\/wp-content\/uploads\/non_lin_separable-768x711.png 768w\" sizes=\"auto, (max-width: 829px) 100vw, 829px\" \/><figcaption class=\"wp-element-caption\">\u00a9 Till Schulz <br>Abbildung 4: Beispiel f\u00fcr eine Menge von Punkten, welche sich im 2-dimensionalen Raum (auch unter Verwendung der Soft Margin SVM) kaum zufriedenstellend voneinander trennen lassen.<\/figcaption><\/figure>\n\n\n\n<p>Die L\u00f6sungsidee besteht darin, die Punkte in einen h\u00f6her dimensionalen Raum zu transformieren, in dem sie durch eine Hyperebene voneinander trennbar sind. Die folgende Illustration zeigt, wie dies f\u00fcr das Beispiel (Abb. 5) aussehen k\u00f6nnte. Die urspr\u00fcnglich 2-dimensionalen Punkte werden jeweils um eine dritte Dimension erweitert. In diesem neuen 3-dimensionalen Raum entspricht die trennende Hyperebene einer 2-dimensionalen Ebene, welche die beiden Klassen nun sauber voneinander trennt.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/2d_to_3d.gif\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25639\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Till Schulz <br>Abbildung 5: Durch den Kernel Trick, d.h. der Transformation in einen h\u00f6herdimensionalen Raum, lassen sich die Punkte nun voneinander trennen.<\/figcaption><\/figure>\n\n\n\n<p>Leider bekommen wir eine solche Transformation nicht geschenkt. Ganz im Gegenteil: Besonders f\u00fcr hoch-dimensionale Daten ist das Finden einer geeigneten Transformation im Allgemeinen mit einem nicht vertretbaren Rechenaufwand verbunden. Woher nehmen wir also stattdessen eine geeignete Transformation? Nun, eigentlich wird sie gar nicht explizit ben\u00f6tigt. Stattdessen l\u00e4sst sich das Problem durch eine geschickte Umformulierung umgehen. Tats\u00e4chlich gen\u00fcgt es, paarweise \u00c4hnlichkeiten zwischen den Datenpunkten mithilfe einer <em>Kernel Funktion<\/em> zu berechnen. Mit diesem sogenannten <em>Kernel Trick<\/em> wird die Notwendigkeit einer expliziten und aufwendigen Transformation von Datenpunkten in einem h\u00f6her-dimensionalen Raum vollst\u00e4ndig umgangen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Verwandte Beitr\u00e4ge zum Thema SVM:<\/h3>\n\n\n\n<p><a href=\"https:\/\/lamarr-institute.org\/de\/intelligentes-regal\/\">Das intelligente Regal: Der Weg zu intelligenten Mensch-Maschine-Schnittstellen in der Industrie<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/lamarr-institute.org\/de\/computer-vision\/\">Computer Vision: Wie lernen Maschinen zu sehen?<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/lamarr-institute.org\/de\/krankheitsverlaeufe-ranking-svm\/\">Krankheitsverl\u00e4ufe besser einsch\u00e4tzen mit Ranking SVM<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Die Support Vector Machine ist eine h\u00e4ufig verwendete Methode zum \u00fcberwachten Lernen, welche insbesondere Anwendung in der Klassifikation von Bild- und Textdaten findet. Dieser Beitrag geht auf ihre Funktionsweise ein.<\/p>\n","protected":false},"author":9,"featured_media":4371,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,390],"blog-tag":[1533,1599,1615],"class_list":["post-4360","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-grundlagen","blog-tag-klassifikation","blog-tag-support-vector-machines-svm-de","blog-tag-ueberwachtes-lernen"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4360","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4360\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4371"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4360"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4360"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4360"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}