{"id":4580,"date":"2021-01-27T08:00:00","date_gmt":"2021-01-27T08:00:00","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/iq-test-ki\/"},"modified":"2025-11-12T14:55:08","modified_gmt":"2025-11-12T14:55:08","slug":"iq-test-ki","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/iq-test-ki\/","title":{"rendered":"IQ-Test f\u00fcr KI: Die ARC Challenge"},"content":{"rendered":"\n<p>K\u00fcnstliche Intelligenzen, wie man sie aus Science-Fiction Filmen kennt, sind meist <i>Generelle K\u00fcnstliche Intelligenzen<\/i>. Sie sind in der Lage jedwede Aufgabe durch eine Kombination von gesammeltem Wissen und logischem Denken zu l\u00f6sen, auch und besonders dann, wenn die Aufgabe noch nie vorher gel\u00f6st wurde. Eine solche K\u00fcnstliche Intelligenz zu entwickeln wird daher vermehrt als <i>Heiliger Gral der KI<\/i> bezeichnet.<\/p>\n\n\n\n<p>Aktuell werden Verfahren des Maschinellen Lernens benutzt, um speziell definierte Aufgaben aus einer Sammlung von Beispielen zu lernen. Beispiele hierf\u00fcr sind die Gesichtserkennung auf Bildern oder das \u00dcbersetzen von Text zwischen zwei Sprachen. Sobald das Verfahren trainiert wurde, beherrscht es, anders als Menschen, im Allgemeinen allerdings nicht die Abstraktionsleistung verwandte Probleme zu l\u00f6sen. So kann ein Modell zur Gesichtserkennung nicht ohne weiteres eine Person mit einer Mund-Nasen-Bedeckung identifizieren, solange es nicht auf solchen Beispielen trainiert wurde.<\/p>\n\n\n\n<p>In seinem Artikel <a href=\"https:\/\/arxiv.org\/pdf\/1911.01547.pdf\" target=\"_blank\" rel=\"noopener\"><i>On the Measure of Intelligence<\/i><\/a> beschreibt Fran\u00e7ois Chollet die Notwendigkeit f\u00fcr einen Benchmark, welcher akkurat die generelle Intelligenz von KI quantifizieren kann. Dies k\u00e4me einem IQ-Test f\u00fcr KI gleich. Als Resultat seiner \u00dcberlegungen ver\u00f6ffentlichte er den <a href=\"https:\/\/github.com\/fchollet\/ARC\" target=\"_blank\" rel=\"noopener\"><i>Abstraction and Reasoning Corpus<\/i><\/a>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Der Abstraction and Reasoning Corpus<\/span><\/h2>\n\n\n\n<p>Der <i>Abstraction and Reasoning Corpus (ARC) <\/i>besteht aus vielen verschiedenen Aufgaben in Form von Bilddaten. Jedes Bild besteht aus einem rechteckigen Gitter beliebiger Gr\u00f6\u00dfe (zwischen 1&#215;1 und 30&#215;30 Pixel), dessen Zellen mit einer von neun Farben gef\u00fcllt ist. Aus zwei bis vier Trainingsbeispielen mit L\u00f6sung soll die KI die Logik der jeweiligen Aufgabe erlernen, um sie dann auf ein bis zwei weitere Beispielbilder ohne vorgegebene L\u00f6sungen anzuwenden. Typische Aufgaben ben\u00f6tigen ein Verst\u00e4ndnis von Geometrie und logischem Denken. So m\u00fcssen beispielsweise Formen einer speziellen Farbe verschoben, ausgeschnitten, dupliziert oder fortgef\u00fchrt werden (siehe nachstehende Abbildung). Solche Aufgaben sind typischerweise f\u00fcr Menschen leicht und schnell verst\u00e4ndlich.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/example-task-1-1024x513.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24458\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R<br>Eine Beispielaufgabe aus dem ARC. Es soll aus jedem Bild der oberen Reihe die Form mit der kleinsten Fl\u00e4che ausgeschnitten werden. Der KI werden die ersten drei Paare zum Training zur Verf\u00fcgung gestellt. Anhand des letzten Bildes wird evaluiert, ob die KI die Logik der Aufgabe gelernt hat.<\/figcaption><\/figure>\n\n\n\n<p>Die Schwierigkeit bei diesem Datensatz besteht zum einen darin, dass es sehr viele verschiedene Aufgaben mit grundlegend verschiedener Logik gibt. Um die 400 Aufgaben werden im Trainingsdatensatz bereitgestellt, welche alle von dem gleichen Ansatz gel\u00f6st werden m\u00fcssen. Eine zus\u00e4tzliche Schwierigkeit entsteht dadurch, dass sich nicht nur die Bildgr\u00f6\u00dfen zwischen den Aufgaben ver\u00e4ndern k\u00f6nnen, sondern auch innerhalb der Aufgabe verschiedene Gr\u00f6\u00dfen auftreten k\u00f6nnen. Teilweise ist sogar die Ausgabegr\u00f6\u00dfe nicht gleich der Eingabegr\u00f6\u00dfe, wenn beispielsweise bestimmte Formen aus der Eingabe ausgeschnitten werden sollen. Viele maschinelle Lernverfahren erwarten allerdings feste Ein- und Ausgabedimensionen der Daten.<\/p>\n\n\n\n<p>Um den Datensatz zu testen, veranstaltete Fran\u00e7ois Chollet eine \u00f6ffentliche Challenge auf der Data Science <a href=\"https:\/\/www.kaggle.com\/c\/abstraction-and-reasoning-challenge\" target=\"_blank\" rel=\"noreferrer noopener\">Plattform Kaggle<\/a>. Registrierte Gruppen erhielten den Datensatz und konnten berechnete L\u00f6sungen zur Evaluation an Kaggle schicken. Auf einer \u00f6ffentlichen Rangliste wurde daraufhin die Anzahl der korrekt gel\u00f6sten Aufgaben jedes Teams aufgef\u00fchrt. Mit unserem im Nachfolgenden beschriebenen Ansatz erreichten wir zum Abschluss der Challenge eine Platzierung unter den besten 30 von \u00fcber 900 teilnehmenden Gruppen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">L\u00f6sungsansatz mittels grammatikalischer Evolution<\/h2>\n\n\n\n<p>Zun\u00e4chst verfolgen wir den Ansatz, Operationen auf Gitterbildern als dom\u00e4nenspezifische Sprache zu definieren. Zus\u00e4tzlich zu den Bildern definieren wir hierbei ein Schichtobjekt, welches aus einer Liste von mehreren Bildern besteht. Dieser Ansatz findet sich auch h\u00e4ufig in Bildverarbeitungssoftware, wie Adobe Photoshop oder GIMP, wieder. Die Grammatik der dom\u00e4nenspezifischen Sprache besteht aus vier verschiedenen Operationstypen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>T (Bild -&gt; Bild)<\/strong>: Operationen, welche ein Bild direkt verarbeiten und ein Bild zur\u00fcckgeben (zuschneiden, rotieren, spiegeln etc.)<\/li>\n\n\n\n<li><strong>S (Bild -&gt; Schichten)<\/strong>: Operationen, welche ein Bild in mehrere Schichten aufteilen (duplizieren, in Farbkan\u00e4le aufteilen etc.)<\/li>\n\n\n\n<li><strong>L (Schichten -&gt; Schichten)<\/strong>: Analog zu <strong>T<\/strong>, allerdings f\u00fcr Schichtobjekte (sortieren der Schichten nach vorgegebenen Kriterien, filtern etc.)<\/li>\n\n\n\n<li><strong>J (Schichten -&gt; Bild)<\/strong>: Invers zu <strong>S<\/strong> (Vereinigung der Schichten zu einem Bild etc.)<\/li>\n<\/ul>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/lwda_automata-1024x173.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24461\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R<br>Automat zur Generierung valider Bildverarbeitungsalgorithmen. X beschreibt hierbei ein einzelnes Bild, w\u00e4hrend X ein Schichtobjekt darstellt. Es wird festgelegt, dass sowohl Start- als auch Endzustand wieder ein Bild sein m\u00fcssen, wodurch jeder generierte Ausdruck zu einem validen Bild f\u00fchrt.<\/figcaption><\/figure>\n\n\n\n<p>Mithilfe eines evolution\u00e4ren Algorithmus generieren wir aus der definierten Grammatik Syntaxb\u00e4ume und mutieren, rekombinieren und selektieren diese anhand ihrer G\u00fcte auf den Beispieldaten. Dieser Ansatz wird f\u00fcr jede Aufgabe im Datensatz wiederholt. Wir nehmen an, dass ein korrekter Syntaxbaum gefunden wurde, sobald er alle Beispieldaten korrekt l\u00f6st. Wir l\u00f6sen dann damit die verbleibenden Aufgaben ohne L\u00f6sung. Sollte innerhalb eines gewissen Zeitfensters kein Syntaxbaum alle Beispielaufgaben l\u00f6sen, wird die Aufgabe \u00fcbersprungen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/lwda_ablauf-1024x201.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24463\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R<br>Generierte L\u00f6sung unseres Ansatzes zu der obig genannten Beispielaufgabe. Zun\u00e4chst wird die Farbe<em>&nbsp;\u201cc1\u201d&nbsp;<\/em>(schwarz) aus dem Bild entfernt. Danach wird das Bild anhand der vorhandenen Farben in einzelne Schichten aufgeteilt und absteigend nach Fl\u00e4che der einzelnen Farben sortiert. Mit \u201c<em>top<\/em>\u201d wird die oberste Schicht dann ausgew\u00e4hlt und zugeschnitten.<\/figcaption><\/figure>\n\n\n\n<p>Mit diesem Ansatz ist es uns gelungen 3% der geheimen Testaufgaben zu l\u00f6sen, aus denen die \u00f6ffentliche Rangliste erstellt wird. Auch wenn dies niedrig erscheint, so erreichten wir Platz 28 von \u00fcber 900 Gruppen. Dies verdeutlicht, wie schwierig es ist f\u00fcr den ARC eine gute L\u00f6sung zu finden. Denn: Durch die starke Diversit\u00e4t der Aufgaben ist es schwierig eine einheitliche Menge an vorgegebenen Funktionen zu definieren, aus denen Ausdr\u00fccke f\u00fcr verschiedenste Aufgaben generiert werden k\u00f6nnen. Jede weitere Funktion f\u00fchrt zudem zu mehr Komplexit\u00e4t und vergr\u00f6\u00dfert den Suchraum. Auch wenn die ARC Challenge einen interessanten Einblick in die M\u00f6glichkeiten von Genereller K\u00fcnstlicher Intelligenz gibt, so zeigt sie doch ebenso deutlich, wie weit diese noch in der Zukunft liegt.<\/p>\n\n\n\n<p>Weitere Informationen im zugeh\u00f6rigen Paper:<br><strong>Solving Abstract Reasoning Tasks with Grammatical Evolution <\/strong>Raphael Fischer, Matthias Jakobs, Sascha M\u00fccke, Katharina Morik. Lernen, Wissen, Daten, Analyse (LWDA), 2020,<a href=\"http:\/\/ceur-ws.org\/Vol-2738\/LWDA2020_paper_8.pdf\" target=\"_blank\" rel=\"noreferrer noopener\"> PDF<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Menschen k\u00f6nnen vorhandenes Wissen und logisches Denken kombinieren, um neue Probleme zu l\u00f6sen. F\u00fcr KI ist das nicht so einfach. Der ARC Benchmark bietet nun eine Testumgebung f\u00fcr solch neuartige KI-Ans\u00e4tze.<\/p>\n","protected":false},"author":9,"featured_media":4587,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,396],"blog-tag":[1485],"class_list":["post-4580","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-forschung","blog-tag-evolutionaere-algorithmen"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4580","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4580\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4587"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4580"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4580"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4580"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}