{"id":4485,"date":"2021-11-03T04:32:29","date_gmt":"2021-11-03T04:32:29","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/testen-von-ki-systemen\/"},"modified":"2025-11-12T14:53:40","modified_gmt":"2025-11-12T14:53:40","slug":"testen-von-ki-systemen","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/testen-von-ki-systemen\/","title":{"rendered":"Von Sisyphos und Herakles: Herausforderungen beim effektiven und effizienten Testen von KI-Anwendungen"},"content":{"rendered":"\n<p><span data-contrast=\"auto\">Die rasante Zunahme der Leistungsf\u00e4higkeit und Einsatzgebiete maschineller Lernverfahren \u2013 allen voran von Neuronalen Netzen \u2013 treibt die Verbreitung von Anwendungen K\u00fcnstlicher Intelligenz (KI) in nahezu alle Wirtschaftsbranchen und Lebensbereiche voran. Dies geht einher mit einer <\/span><a href=\"https:\/\/machinelearning-blog.de\/anwendung\/mlops\/\" target=\"_blank\" rel=\"noopener\"><span data-contrast=\"none\">Professionalisierung der Entwicklung und des Betriebs von KI-L\u00f6sungen<\/span><\/a><span data-contrast=\"auto\"> und f\u00fchrt diese Verfahren zunehmend in kleine und mittelst\u00e4ndische Unternehmen, Beh\u00f6rden und \u00f6ffentliche Einrichtungen sowie in alle Bereiche privater und \u00f6ffentlicher Infrastruktur (Energie- und Datennetze, Krankenh\u00e4user, usw.).<\/span><span data-ccp-props=\"{&quot;201341983&quot;:0,&quot;335559739&quot;:160,&quot;335559740&quot;:259}\">&nbsp;<\/span><\/p>\n\n\n\n<p><span data-contrast=\"auto\">Zeitgem\u00e4\u00dfen Standards professioneller Softwareentwicklung wie etwa dem <\/span><span data-contrast=\"none\">V-Modell<\/span><span data-contrast=\"auto\"> zufolge ist das systematische <\/span><b><span data-contrast=\"auto\">Testen von Funktionalit\u00e4t und Sicherheit<\/span><\/b><span data-contrast=\"auto\"> ein integraler Bestandteil des Entwicklungs- und Auslieferungsprozesses und sollte w\u00e4hrend des gesamten Lebenszyklus einer Anwendung stattfinden \u2013 <\/span><b><span data-contrast=\"auto\">ob KI-Komponenten enthalten sind oder nicht<\/span><\/b><span data-contrast=\"auto\">. Dies ist besonders dort n\u00f6tig, wo ihr Einsatz mit hohen oder kritischen Risiken einhergeht. Dar\u00fcber hinaus setzen <\/span><span data-contrast=\"none\">agile Entwicklungsprozesse<\/span><span data-contrast=\"auto\"> mit ihren schnellen, iterativen Aktualisierungen und <\/span><span data-contrast=\"none\">automatisierter Auslieferung<\/span><span data-contrast=\"auto\"> sowie die teils sehr dynamischen Einsatzumgebungen die Verwendung von gut automatisierbaren Pr\u00fcfverfahren voraus.<\/span><span data-ccp-props=\"{&quot;201341983&quot;:0,&quot;335559739&quot;:160,&quot;335559740&quot;:259}\">&nbsp;<\/span><\/p>\n\n\n\n<p><span data-contrast=\"auto\">Im Vergleich zu klassischer Software ist die Pr\u00fcfung von KI-Anwendungen mit einer Reihe besonderer Herausforderungen verbunden, die von etablierten Testverfahren bislang noch nicht oder nicht ausreichend adressiert werden. In diesem Blogbeitrag stellen wir einige dieser Herausforderungen vor.<\/span><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Moderne Softwareentwicklung ist komplex und hoch automatisiert&nbsp;<\/span><\/h2>\n\n\n\n<p><span data-contrast=\"auto\">Speziell bei maschinellen Lernverfahren aber auch schon bei klassischer Software reichen Pr\u00fcfungen, die allein auf manuell erstellten Funktionstests basieren, oft nicht aus, um ein akzeptables Funktions- und Sicherheitsniveau zu gew\u00e4hrleisten. Hinzu kommt, dass Software heutzutage oft in vielen kurzen Entwicklungszyklen weiterentwickelt, automatisiert zu Paketen integriert und ausgeliefert wird. Insgesamt f\u00fchrt diese hohe Dynamik dazu, dass viele Anwendungen niemals endg\u00fcltig fertiggestellt werden und damit auch niemals vollst\u00e4ndig getestet werden (k\u00f6nnen). Effektive Pr\u00fcfverfahren m\u00fcssen dem Rechnung tragen und dabei nicht nur praktikabel, sondern auch wirtschaftlich sein.<\/span><span data-ccp-props=\"{&quot;201341983&quot;:0,&quot;335559739&quot;:160,&quot;335559740&quot;:259}\">&nbsp;<\/span><\/p>\n\n\n\n<p><span data-contrast=\"auto\">So ist zum Beispiel die <\/span><a href=\"https:\/\/en.wikipedia.org\/wiki\/Formal_verification\" target=\"_blank\" rel=\"noreferrer noopener\"><b><span data-contrast=\"none\">formale Verifikation<\/span><\/b><\/a><span data-contrast=\"auto\">, das hei\u00dft ein mathematischer Beweis der Funktionsf\u00e4higkeit eines Softwaremoduls, in der Regel sehr zeit- und kostenintensiv. In der Praxis eignet sie sich daher nur f\u00fcr deterministische Programme von \u00fcberschaubarer Komplexit\u00e4t sowie f\u00fcr Einsatzszenarien, die sowohl statisch als auch in hohem Ma\u00dfe sicherheitskritisch sind (zum Beispiel Weltraummissionen). Vielfach ist ein solcher Korrektheitsbeweis zwar w\u00fcnschenswert, aber nicht durchf\u00fchrbar, was zum Beispiel gegeben sein kann, wenn der Raum m\u00f6glicher Eingaben <\/span><a href=\"https:\/\/what-if.xkcd.com\/34\/\" target=\"_blank\" rel=\"noopener\"><span data-contrast=\"none\">praktisch unendlich<\/span><\/a><span data-contrast=\"auto\"> gro\u00df ist. Letzteres ist dann der Fall, wenn es, nach aktuellem Kenntnisstand, selbst mit allen potentiell menschen-verf\u00fcgbaren Ressourcen absehbar niemals m\u00f6glich sein wird, alle Eingaben durchzuspielen. Ein Beispiel hierf\u00fcr ist Software, die Bildinhalte verarbeitet.\u00a0\u00a0<\/span><\/p>\n\n\n\n<p><span data-contrast=\"auto\">Selbst wenn sich eine Anwendung f\u00fcr die formale Verifikation eignet, so existieren nach heutigem Stand nicht f\u00fcr alle maschinellen Lernverfahren entsprechende Ans\u00e4tze. Um den oben genannten Pr\u00fcfbedarf auch f\u00fcr den gro\u00dfen Anteil der Anwendungen decken zu k\u00f6nnen, f\u00fcr die formale Verifikation nicht in Frage kommt, m\u00fcssen daher alternative Pr\u00fcfverfahren gefunden werden.<\/span><\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Spezifische Herausforderungen von KI-Modellen&nbsp;<\/span><\/h2>\n\n\n\n<p><span data-contrast=\"auto\">Die Funktionalit\u00e4t eines KI-Modells l\u00e4sst sich nur sehr l\u00fcckenhaft, so wie bei klassischer Software \u00fcblich, durch manuell erstellte Unit- oder Integrationstests (also Tests elementarer Funktionseinheiten beziehungsweise des Zusammenspiels mehrerer Funktionseinheiten durch Vergleich der berechneten mit der erwarteten Ausgabe bei gegebener Eingabe) pr\u00fcfen. Daher wird stattdessen datengetrieben und eingebettet in den Trainingsprozess getestet. So besteht ein Standardverfahren zum Testen \u00fcberwachter Lernverfahren darin, die Eingangsdaten in <\/span><a href=\"https:\/\/machinelearningmastery.com\/difference-test-validation-datasets\/\" target=\"_blank\" rel=\"noopener\"><span data-contrast=\"none\">Trainings-, Validierungs- und Testdatens\u00e4tze<\/span><\/a><span data-contrast=\"auto\"> aufzuteilen. Das Modell wird auf dem Trainingsdatensatz trainiert und die Performanz auf den Testdaten als Kriterium f\u00fcr den aktuellen, tats\u00e4chlichen &#8222;Lernerfolg&#8220; kontinuierlich \u00fcberwacht. Schlie\u00dflich wird mit dem zur\u00fcckgehaltenen Validierungsdatensatz gepr\u00fcft, wie gut das Model gelernt hat, auf g\u00e4nzlich unbekannte Eingaben korrekt zu reagieren und damit die zu lernenden Beziehungen zu generalisieren.&nbsp;<\/span><\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/00_Sisyphos_pic-1024x372.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24986\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9ML2R<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Qualit\u00e4tsmanagement der Trainingsdaten&nbsp;<\/h2>\n\n\n\n<p>Allerdings ist dieses Verfahren ungeeignet, um zu erkennen, dass in einem Eingangsdatensatz wichtige Beispiele fehlen. So sind etwa Konstellationen denkbar, in denen bekannte und kritische Anwendungsf\u00e4lle eines Modells in den Trainingsdaten nicht oder nur schwach repr\u00e4sentiert sind oder sich nur unter hohen Kosten oder per Simulator generieren lassen. Ein Beispiel hierf\u00fcr w\u00e4re die Repr\u00e4sentation &#8222;echter&#8220; Verkehrsunf\u00e4lle zum Training autonomer Fahrzeuge.&nbsp;<\/p>\n\n\n\n<p>Doch selbst wenn alle wichtigen Arten von zul\u00e4ssigen Beispielen enthalten sind, kann das oben genannte Trainings- und Testverfahren nicht verhindern, dass m\u00f6glicherweise vorhandene statistische Verzerrungen zwischen den erhobenen Eingangsdaten und den zu lernenden Beziehungen auf das Modell \u00fcbertragen werden. Solche Verzerrungen k\u00f6nnen auf verschiedene Arten entstehen, sei es, dass&nbsp;<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>die Datenerhebung mangelhaft umgesetzt oder (zu) schwierig\/teuer ist.&nbsp;<\/li>\n\n\n\n<li>sich bestimmte Eigenschaften nur \u00fcber Umwege messen beziehungsweise sch\u00e4tzen lassen.&nbsp;<\/li>\n\n\n\n<li>Neigungen und Vorurteile (Bias) an der Erhebung beteiligter Menschen in die Daten einflie\u00dfen.&nbsp;&nbsp;<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Hohe Dynamik von Modell und Umwelt&nbsp;<\/h2>\n\n\n\n<p>Maschinelle Lernverfahren k\u00f6nnen dar\u00fcber hinaus Modelle im laufenden Betrieb weiterlernen lassen, was dazu f\u00fchren kann, dass diese sich dabei nahezu beliebig von einer zuvor getesteten Version entfernen. So k\u00f6nnen Neuronale Netze anf\u00e4llig sein f\u00fcr die sogenannte <a href=\"https:\/\/en.wikipedia.org\/wiki\/Catastrophic_interference\" target=\"_blank\" rel=\"noreferrer noopener\">catastrophic interference<\/a>, bei der ein neu erlerntes Beispiel zuvor gelernte Beispiele schnell und vollst\u00e4ndig &#8222;\u00fcberschreibt&#8220;. Auch ist inzwischen bekannt, dass manche Algorithmen \u2013 vor allem Neuronale Netze \u2013 dazu neigen, wenig robust auf selbst kleinste Variationen in der Eingabe zu reagieren. Dies illustrieren zwei Artikel des ML2R-Blogs, in denen sogenannte Adversarial Examples und Attacken sowie m\u00f6gliche <a href=\"https:\/\/machinelearning-blog.de\/grundlagen\/adversarial-examples-abwehren\/\" target=\"_blank\" rel=\"noreferrer noopener\">Gegenma\u00dfnahmen<\/a> vorgestellt werden.&nbsp;<\/p>\n\n\n\n<p>Dar\u00fcber hinaus kann es in ver\u00e4nderlichen Einsatzumgebung vorkommen, dass sich ein KI-Modell im Betrieb mit Eingaben konfrontiert sieht, die zwar valide sind, im Training aber nicht oder nur sehr schwach repr\u00e4sentiert waren. So ist es m\u00f6glich, dass sich etwa ein Neuronales Netz zur Erkennung von Verkehrsteilnehmenden in Folge ge\u00e4nderter gesetzlicher Regelungen pl\u00f6tzlich mit einer v\u00f6llig neuen Fahrzeuggattung konfrontiert sieht (zum Beispiel Elektroroller). Im Idealfall ist ein Pr\u00fcfverfahren in der Lage, ein Modell schon im Vorfeld auf sein Verhalten bei solchen Abweichungen zu testen, zum Beispiel indem es neue, plausible Eingaben selbst generiert.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Nicht-Determinismus bei Maschinellem Lernen&nbsp;<\/h2>\n\n\n\n<p>Eine weitere Schwierigkeit ergibt sich aus nicht-deterministischen Eigenschaften maschineller Lernverfahren. Zwei <strong>in gleicher Weise<\/strong> trainierte KI-Systeme k\u00f6nnen sich selbst bei konstanten Eingangsdaten und statischem Problem(um-)feld unterschiedlich verhalten, wenn schon der <strong>Trainingsablauf<\/strong> als Folge explizit hinzugef\u00fcgter (zum Beispiel durch Mischen der Trainingsdaten) oder intrinsisch enthaltener Zufallselemente (etwa bei paralleler Ausf\u00fchrung) nicht-deterministisch ist.&nbsp;<\/p>\n\n\n\n<p>Insbesondere sogenannte generative Modelle k\u00f6nnen au\u00dferdem ein intrinsisch nicht-deterministisches <strong>Verhalten<\/strong> zeigen: Zufallselemente, die zur Erzeugung einer Ausgabe absichtlich hinzugef\u00fcgt werden, sorgen daf\u00fcr, dass identische Eingaben zu verschiedenen Ausgaben f\u00fchren k\u00f6nnen. Das Sprachverarbeitungsmodell <a href=\"https:\/\/en.wikipedia.org\/wiki\/GPT-3\" target=\"_blank\" rel=\"noreferrer noopener\">GPT3<\/a> erzeugt zum Beispiel auf identische Eingaben in der Regel Texte, wie Nachrichtenmeldungen, mit mehr oder weniger starken Unterschieden. Und auch wenn dieses Problem nicht auf maschinelle Lernverfahren beschr\u00e4nkt ist, erlangt es durch die Verbreitung generativer Modelle besondere Relevanz im KI-Kontext. Es erh\u00f6ht gleichzeitig den Pr\u00fcfungsaufwand erheblich, weil f\u00fcr jede m\u00f6gliche Eingabe im Prinzip eine ganze Zufallsverteilung von Ausgaben erhoben und gepr\u00fcft werden muss.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Fazit&nbsp;<\/h2>\n\n\n\n<p>KI-Modelle effektiv und effizient pr\u00fcfen zu k\u00f6nnen, wird im Hinblick auf ihre wachsende Verbreitung, Komplexit\u00e4t und Kritikalit\u00e4t immer wichtiger. Gleichzeitig m\u00fcssen f\u00fcr Tests solcher Systeme besondere Herausforderungen bew\u00e4ltigt werden, die wie die Lernverfahren selbst Gegenstand aktueller Forschung sind. Ein Beispiel f\u00fcr einen vielversprechenden Pr\u00fcfansatz, der einige der genannten Probleme angeht, stellen wir Ihnen im n\u00e4chsten Blogbeitrag vor.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>KI-Modelle effektiv pr\u00fcfen zu k\u00f6nnen, wird im Hinblick auf ihre wachsende Bedeutung immer wichtiger. Dabei muss eine ganze Reihe besonderer Herausforderungen bew\u00e4ltigt werden, deren L\u00f6sung Gegenstand aktueller Forschung ist.<\/p>\n","protected":false},"author":9,"featured_media":4488,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,546],"blog-tag":[1490,1597],"class_list":["post-4485","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-anwendung","blog-tag-fuzzy-testing-de","blog-tag-softwareentwicklung"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4485","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4485\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4488"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4485"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4485"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4485"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}