{"id":4095,"date":"2021-01-13T04:04:59","date_gmt":"2021-01-13T04:04:59","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/maschinelles-lernen-in-der-praxis\/"},"modified":"2025-11-12T14:53:58","modified_gmt":"2025-11-12T14:53:58","slug":"maschinelles-lernen-in-der-praxis","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/maschinelles-lernen-in-der-praxis\/","title":{"rendered":"Ready Steady Go: Maschinelles Lernen in der Praxis"},"content":{"rendered":"\n<p>Bevor man mit Maschinellem Lernen beginnt, gibt es m\u00f6gliche offene Fragen zu kl\u00e4ren: Wie wende ich Maschinelles Lernen in der Praxis an? Welche Werkzeuge passen auf meine Fragestellung? Und wo finde ich weiterf\u00fchrende Informationen, um ML praktisch anzuwenden? Dieser Beitrag aus dem Alltag der ML2R Forscher*innen ist Teil unserer<a href=\"https:\/\/lamarr-institute.org\/de\/blog-kategorie\/ml-basics-de\/\" target=\"_blank\" rel=\"noopener\"> &#8222;ML Basics&#8220; Reihe<\/a> und soll einen Einstieg in die Praxis und Hinweise zu weiteren Ressourcen geben. Wie man dabei vorgeht, erkl\u00e4ren wir in drei Schritten.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Schritt 1: Mindset<\/span><\/h2>\n\n\n\n<p>Maschinelles Lernen verbindet man wahrscheinlich als erstes mit fortgeschrittener Mathematik und Programmierexpertise, aber Maschinelles Lernen ist zug\u00e4nglicher geworden \u2013 auch ohne viel Programmiererfahrung oder Mathematik-Studium. Das beweist unter anderem ein <a href=\"https:\/\/about.google\/intl\/de\/stories\/tensor-flow-gurke\/\" target=\"_blank\" rel=\"noopener\">Gem\u00fcsebauer aus Japan<\/a>. Makoto Koike hat sich mithilfe einer ML Platform den Sortierprozess von Gurken automatisiert. Seine Grundlage: ein starkes Interesse und 7000 Gurkenbilder. Doch was ben\u00f6tigt man, um Maschinelles Lernen eigenst\u00e4ndig anzuwenden?<\/p>\n\n\n\n<p>Realistisch ist, dass ein gewisses Verst\u00e4ndnis von Analysis, Linearer Algebra und Programmieren n\u00f6tig ist,um das \u201eBasecamp\u201c zu verlassen und mehr als eine logistische Regression auf einen grundlegenden Datensatz anzuwenden. Wir sind der \u00dcberzeugung, dass dieses Grundverst\u00e4ndnis mit den passenden Ressourcen und Zeit erreichbar ist. Eine kleine Auswahl an zug\u00e4nglichen Ressourcen haben wir am Ende des Artikels zusammengestellt. Vielmehr wollen wir hier zuallererst betonen, dass die Einstellung eine gro\u00dfe Rolle spielt und zwei Punkte dabei hervorheben:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Maschinelles Lernen ist keine Magie.<br>Es ist eine Wunschvorstellung mit einem Knopfdruck gew\u00fcnschte Resultate zu erhalten. In der Anwendung, insbesondere in der Datenaufbereitung, steckt 80% der Arbeit. Darauf sollte man sich einstellen, um keine falschen Erwartungen zu haben.<\/li>\n\n\n\n<li>Maschinelles Lernen ist ein Werkzeug.<br>Hinter der Anwendung steht immer eine Problemstellung, die gel\u00f6st werden will. Teilweise ist die beste L\u00f6sung daf\u00fcr ein simpler Regel-basierter oder ein operativer Ansatz. F\u00fcr jeden Ansatz gibt es unterschiedliche Werkzeuge, die passend ausgew\u00e4hlt werden sollten.<\/li>\n<\/ol>\n\n\n\n<p><strong>Schritt 1 in einem Satz<\/strong>: Maschinelles Lernen zu beherrschen ist erreichbar und es ist wichtig bei den Zielen realistisch zu bleiben.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Schritt 2: Struktur<\/span><\/h2>\n\n\n\n<p>F\u00fcr robuste und anwendungsbezogene L\u00f6sungen braucht es einen systematischen Prozess. Selbst f\u00fcr kleine Projekte lohnt es sich einen Prozess zu verfolgen, um nicht in eine Sackgasse zu laufen. Dabei kann sich ein Prozess durch trial-and-error entwickeln oder man orientiert sich an vorhandenen, standardisierten Abl\u00e4ufen. Der CRISP-DM Cycle (Cross Industry Standard Process for Data Mining) ist ein Prozess, der ein gutes Grundger\u00fcst bildet und den wir bei Projekten fast immer aufgreifen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/CRISP-DM.drawio.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24430\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R<\/figcaption><\/figure>\n\n\n\n<p>Der CRISP-DM besteht aus folgenden sechs Phasen:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Business Understanding \u2013 Problemstellung identifizieren<\/li>\n\n\n\n<li>Data Understanding \u2013 Daten erfassen und untersuchen<\/li>\n\n\n\n<li>Data Preparation \u2013 Datenvorverarbeitung<\/li>\n\n\n\n<li>Modeling \u2013 Methoden ausw\u00e4hlen, Modell trainieren und testen<\/li>\n\n\n\n<li>Evaluation &#8211; Ergebnis anhand Aufgabenstellung \u00fcberpr\u00fcfen<\/li>\n\n\n\n<li>Deployment \u2013 Bericht, Modellintegration etc.<\/li>\n<\/ol>\n\n\n\n<p>In der Ausf\u00fchrung ist der Prozess flexibel. So kann es zum Beispiel gut passieren, dass man in der Phase Evaluation feststellt, dass die Ergebnisse noch nicht der Zielstellung entsprechen. In diesem Fall springt man zur Phase Business Understanding, um weitere Optionen auszuloten, zum Beispiel ob weitere Daten verf\u00fcgbar sind, die man zur Verbesserung der Modelle hinzuziehen kann. Der Prozess dient dazu fr\u00fchzeitig Hindernisse zu identifizieren: Sind Daten vorhanden oder m\u00fcssen sie erst beschafft oder sogar generiert werden? Ist die Datenqualit\u00e4t ausreichend? Reicht diese Modellg\u00fcte den Anforderungen? Mit einem klaren Prozess lassen sich diese Fragen zeitig kl\u00e4ren.<\/p>\n\n\n\n<p><strong>Schritt 2 in einem Satz:<\/strong> Ein Prozess erleichtert die Anwendung.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Schritt 3: Werkzeug<\/span><\/h2>\n\n\n\n<p>Um das \u201eBasecamp\u201c zu verlassen, ben\u00f6tigt man neben der richtigen Herangehensweise und einem Prozess das passende Werkzeug. Die ML Werkzeuge reichen von Editoren, \u00fcber Programmiersprachen zu Entwicklungsumgebungen und Business Intelligence Tools. Im Prinzip kann jede Programmiersprache f\u00fcr ML Anwendungen verwendet werden. Dabei bieten einige Programmiersprachen passende Bibliotheken an und erleichtern damit die Umsetzung. Wenn man wenig Programmiererfahrung hat, eignen sich unter anderem folgende Tools zum Einstieg: WEKA (open source), RapidMiner (all-rounder) und KNIME (insbesondere f\u00fcr Data Mining).<\/p>\n\n\n\n<p><strong>Programmiersprachen:<\/strong> GitHub zufolge ist <strong>Python<\/strong> die <a href=\"https:\/\/github.blog\/2019-01-24-the-state-of-the-octoverse-machine-learning\/\" target=\"_blank\" rel=\"noopener\">meistverwendete Programmiersprache<\/a> im Bereich ML. Auf Platz 2 steht C++ und Platz drei und 4 belegen JavaScript und Java:<\/p>\n\n\n\n<p><span style=\"font-size: 10pt;\">1 &nbsp;Python<\/span><br><span style=\"font-size: 10pt;\">2 &nbsp;C++<br><\/span><span style=\"font-size: 10pt;\">3 &nbsp;JavaScript<br>4 &nbsp;Java<br>5 &nbsp;C#<br>6 &nbsp;Julia<br>7 &nbsp;Shell<br>8 &nbsp;R<br>9 &nbsp;TypeScript<br>10 &nbsp;Scala<\/span><\/p>\n\n\n\n<p><strong>Entwicklungsumgebungen:<\/strong> F\u00fcr alles, was \u00fcber einfaches Ausprobieren hinausgeht, ist eine Entwicklungsumgebung zu empfehlen. Nach einem <a href=\"https:\/\/www.kaggle.com\/kaggle-survey-2020\" target=\"_blank\" rel=\"noopener\">Bericht von kaggle<\/a> ist die beliebteste Entwicklungsumgebung <strong>JupyterLab,<\/strong> gefolgt von Visual Studio Code und PyCharm.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Entwicklungsumgebung.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24432\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R<br>Die Ergebnisse der Kaggle-Umfrage zu dem Thema, welche Entwicklungsumgebungen von den Befragten genutzt werden.<\/figcaption><\/figure>\n\n\n\n<p><strong>Das Library Fundament:<\/strong> Hat man eine Entwicklungsumgebung gew\u00e4hlt, bieten einige Programmiersprachen passende Bibliotheken an. Im Folgenden gehen wir auf beliebte Python Bibliotheken ein, die wir auch im Rahmen von ML2R nutzen.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/pandas.pydata.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">Pandas<\/a> \u2013 f\u00fcr Datenverarbeitung, praktisch f\u00fcr das Bearbeiten von &#8222;DataFrames&#8220; sowie das Ein- und Auslesen von csv Dateien<\/li>\n\n\n\n<li><a href=\"https:\/\/numpy.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">NumPy<\/a> \u2013 f\u00fcr Arrays und Matrizen<\/li>\n\n\n\n<li><a href=\"https:\/\/www.scipy.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">SciPy<\/a>&nbsp; &#8211; f\u00fcr Berechnungen wie zum Beispiel Matrizenmultiplikation und Optimierungsfunktionen<\/li>\n\n\n\n<li><a href=\"https:\/\/scikit-learn.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">Scikit-learn<\/a> \u2013 f\u00fcr klassische Algorithmen (Klassifikation, Regression, Clustering, Dimensionsreduktion)<\/li>\n\n\n\n<li><a href=\"https:\/\/www.tensorflow.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">TensorFlow<\/a> und <a href=\"https:\/\/pytorch.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">PyTorch<\/a> \u2013 f\u00fcr tiefe neuronale Netze<\/li>\n<\/ul>\n\n\n\n<p><strong>Anwendungsspezifische Werkzeuge:<\/strong> Je nach Anwendungsfall und Komplexit\u00e4t sind weitere Tools notwendig. Die Visualisierung ist eine essentielle Aufgabe eines Data Scientisten und dient dazu (a) sich \u00fcber die Eigenschaften der Eingangsdaten klarer zu werden und (b) Ergebnisse eines ML-Algorithmus greifbarer zu machen. F\u00fcr die Visualisierung empfehlen sich matplotlib und plotly. Au\u00dferdem bietet streamlit beispielsweise die M\u00f6glichkeit schnell eine App zu erstellen. F\u00fcr die Analyse von Bilddaten ist OpenCV essentiell, w\u00e4hrend bei der Analyse von Textdaten spaCy empfehlenswert ist. Ist schon abzusch\u00e4tzen, dass viele Modellversionen entstehen werden, ist MLFlow eine \u00dcberlegung wert. Und muss man gro\u00dfe Datenmengen bew\u00e4ltigen, ist Apache Spark als Framework f\u00fcr GPU Computing und parallele Datenverarbeitung eine gute Anlaufstelle. Die genannten Bibliotheken bieten einen Einstieg und bilden nur einen kleinen Bereich des Gesamtangebots ab. F\u00fcr weitere Anforderungen wird man in der F\u00fclle des Bibliothekangebots schnell f\u00fcndig.<\/p>\n\n\n\n<p><strong>Schritt 3 in einem Satz:<\/strong> Das passende Werkzeug ist f\u00fcr die Zielstellung relevant.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Der Weg zur ML Anwendung<\/h2>\n\n\n\n<p>Nach diesem Beitrag solltet ihr die folgenden drei Schritte nicht vergessen:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Schritt 1: Maschinelles Lernen zu beherrschen ist erreichbar und es ist wichtig bei den Zielen realistisch zu bleiben.<\/li>\n\n\n\n<li>Schritt 2: Ein Prozess erleichtert die Anwendung.<\/li>\n\n\n\n<li>Schritt 3: Das passende Werkzeug ist f\u00fcr die Zielstellung relevant.<\/li>\n<\/ol>\n\n\n\n<p>In drei Schritten, das hei\u00dft mit dem Mindset, einem Prozess und dem passenden Werkzeug ist man ger\u00fcstet, um sich auf das ML Spielfeld zu begeben. Dann gibt es nur noch eins zu tun: einfach anfangen! Es stehen online zahlreiche Ressourcen zum weiteren Lernen und sich Austesten zur Verf\u00fcgung.<\/p>\n\n\n\n<p>Hier ist eine kurze Sammlung an hilfreichen weiterf\u00fchrenden Ressourcen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>How to get started (die Basis f\u00fcr den vorgestellten top-down Ansatz): <a href=\"https:\/\/machinelearningmastery.com\/start-here\/\" target=\"_blank\" rel=\"noreferrer noopener\">Step-by-Step Guides<\/a><\/li>\n\n\n\n<li>B\u00fccher: unter anderem unter <a href=\"https:\/\/www.kdnuggets.com\/2020\/09\/best-free-data-science-ebooks-2020-update.html\" target=\"_blank\" rel=\"noreferrer noopener\">Best free Data-Science Books<\/a> und<a href=\"https:\/\/www.kdnuggets.com\/2020\/04\/10-best-machine-learning-textbooks-data-scientists.html\" target=\"_blank\" rel=\"noreferrer noopener\"> Best Machine Learning Textbooks for Data Scientists<\/a><\/li>\n\n\n\n<li>Schulungen und Trainings: MOOCs, z.B. <a href=\"https:\/\/de.coursera.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">Coursera<\/a> und <a href=\"https:\/\/www.udemy.com\/\" target=\"_blank\" rel=\"noreferrer noopener\">Udemy<\/a> <a href=\"https:\/\/www.iais.fraunhofer.de\/de\/geschaeftsfelder\/big-data-analytics\/uebersicht\/data-scientist-schulungen.html\" target=\"_blank\" rel=\"noreferrer noopener\">Data Scientist Schulungen<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>In drei Schritten beschreiben wir das Maschinelle Lernen in der Praxis: das richtige Mindset, ein Beispiel-Prozess mit System und die richtige Werkzeugwahl.<br \/>\nDieser Beitrag bietet einen Einstieg und Hinweise zu Ressourcen.<\/p>\n","protected":false},"author":9,"featured_media":4100,"template":"","meta":{"_acf_changed":true,"footnotes":""},"blog-category":[1416,546],"blog-tag":[1459,1565],"class_list":["post-4095","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-anwendung","blog-tag-crisp-dm-de","blog-tag-python-de"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4095","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4095\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4100"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4095"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4095"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4095"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}