{"id":4877,"date":"2023-10-04T04:00:16","date_gmt":"2023-10-04T04:00:16","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/guided-reinforcement-learning-dynamische-fortbewegung\/"},"modified":"2025-11-12T14:54:21","modified_gmt":"2025-11-12T14:54:21","slug":"guided-reinforcement-learning-dynamische-fortbewegung","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/guided-reinforcement-learning-dynamische-fortbewegung\/","title":{"rendered":"Guided Reinforcement Learning \u2013 wie ein zweir\u00e4driger Roboter die dynamische Fortbewegung erlernt"},"content":{"rendered":"\n<p>In den vorangegangenen Blogposts der Reihe RL f\u00fcr Robotik haben wir bereits das <a href=\"https:\/\/lamarr-institute.org\/de\/blog\/guided-reinforcement-learning-und-robotik\/\" target=\"_blank\" rel=\"noreferrer noopener\">Konzept des Guided RL<\/a> erkundet und seine wichtigsten Merkmale anhand von <a href=\"https:\/\/lamarr-institute.org\/de\/blog\/guided-reinforcement-learning-angewandt-in-der-robotik\/\" target=\"_blank\" rel=\"noreferrer noopener\">drei verschiedenen Roboteraufgaben<\/a> diskutiert. Insbesondere haben wir die Guided RL Taxonomie vorgestellt \u2013 eine modulare Toolbox zur Integration verschiedener Wissensquellen in die RL Pipeline. In diesem Blogbeitrag geht es nun um den ersten praktischen Einsatz von Guided RL in einer realen Roboteraufgabe: Lernen der dynamischen Fortbewegung f\u00fcr einen zweir\u00e4drigen Roboter \u2013 am Beispiel des evoBOT.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>evoBOT \u2013 Eine Forschungsplattform f\u00fcr Hochdynamische Bewegungen<\/strong><\/h2>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/evoBOT-1-1024x412.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-31099\" title=\"\"><figcaption class=\"wp-element-caption\">Abbildung 1: Der am Fraunhofer IML entwickelte Roboter evoBOT. Eine Forschungsplattform f\u00fcr hochdynamische Bewegungsabl\u00e4ufe und Mensch-Maschine-Interaktion. Links: Realer Roboter im PaceLab, rechts: Simulationsmodell des Roboters in Isaac SIM (verf\u00fcgbar als Open Source).  <br>\u00a9 Fraunhofer IML <\/figcaption><\/figure>\n\n\n\n<p>Der am Fraunhofer IML entwickelte evoBOT ist ein dynamisch stabiles System, das auf dem Prinzip eines inversen Verbundpendels basiert (siehe Abbildung 1). Im Gegensatz zu konventionellen Robotern ben\u00f6tigt dieses System kein externes Gegengewicht, um sein Gleichgewicht zu halten. Das einzigartige Design des evoBOT erm\u00f6glicht es ihm, sich selbst immer im Gleichgewicht zu halten, was es dem Roboter erm\u00f6glicht, auf unterschiedlichen und unebenen Oberfl\u00e4chen zu navigieren, selbst wenn es Schr\u00e4gen gibt. Die kompakte und leichte Bauweise des evoBOT erh\u00f6ht seine Vielseitigkeit und Mobilit\u00e4t zus\u00e4tzlich. Dank seiner hohen Agilit\u00e4t und Flexibilit\u00e4t eignet sich das System f\u00fcr ein breites Spektrum von Anwendungen, einschlie\u00dflich kollaborativer Aufgaben, die \u00fcber den traditionellen Logistikkontext hinausgehen. Als modulares System kann der evoBOT an spezifische Anforderungen angepasst werden, und seine Anpassungsf\u00e4higkeit macht ihn f\u00fcr den Einsatz in komplexen st\u00e4dtischen Umgebungen geeignet.<\/p>\n\n\n\n<p>Im Gegensatz zu bestehenden L\u00f6sungen, die sich auf einfache T\u00e4tigkeiten wie das Schieben und Ziehen von Logistikg\u00fctern beschr\u00e4nken, bietet der evoBOT eine breite Palette von Funktionen, die je nach Bedarf kombiniert und erweitert werden k\u00f6nnen. Zu diesen Funktionen geh\u00f6rt die F\u00e4higkeit, Objekte zu handhaben, zu transportieren und zu drehen. Das bio-inspirierte Design des Systems erh\u00f6ht zudem die Benutzerfreundlichkeit und senkt die Hemmschwelle f\u00fcr die Interaktion zwischen Mensch und Roboter. Aufgrund seiner vielen Vorteile kann der evoBOT als pers\u00f6nlicher Assistent f\u00fcr Menschen in einer Vielzahl von Situationen dienen. Aufgrund seiner einzigartigen Eigenschaften und Funktionen eignet er sich gut f\u00fcr den Einsatz in Umgebungen, in denen herk\u00f6mmliche Roboter m\u00f6glicherweise nicht effektiv arbeiten k\u00f6nnen. Daher hat der evoBOT das Potenzial, die Art und Weise, wie Menschen mit Technologie interagieren, zu ver\u00e4ndern und zur Entwicklung neuer Anwendungen und Einsatzm\u00f6glichkeiten f\u00fcr die Robotik beizutragen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Guided RL Taxonomie \u2013 Auswahl von Methoden f\u00fcr den Anwendungsfall<\/h2>\n\n\n\n<p>Wir untersuchen lernbasierte Steuerungsans\u00e4tze f\u00fcr die Aufgabe der dynamischen Fortbewegung des evoBOT. Insbesondere soll das zugrunde liegende neuronale Netz geeignete Radgeschwindigkeiten berechnen, um vorgegebene Geschwindigkeitsbefehle des Roboters zu erreichen. In Anlehnung an die Taxonomie von Guided RL (<a href=\"https:\/\/lamarr-institute.org\/de\/blog\/guided-reinforcement-learning-und-robotik\/\" target=\"_blank\" rel=\"noreferrer noopener\">siehe vorherigen Blog-Beitrag<\/a>) wird eine spezifische Kombination verschiedener Guided RL-Methoden eingesetzt, um das Training zu beschleunigen und den Erfolg f\u00fcr die reale Robotikanwendung zu verbessern (siehe Abbildung 2).<\/p>\n\n\n\n<div class=\"wp-block-group\"><div class=\"wp-block-group__inner-container is-layout-constrained wp-block-group-is-layout-constrained\">\n<ol class=\"wp-block-list\">\n<li><strong>Reward Design:<\/strong> Um das gew\u00fcnschte Verhalten des gelernten Bewegungsreglers zu kodieren, verwenden wir eine dichte Belohnungsfunktion. Insgesamt besteht diese Funktion aus mehreren Optimierungskriterien, darunter Belohnungen f\u00fcr die Verfolgung der linearen und der Winkelgeschwindigkeit sowie Bestrafungen f\u00fcr das Herunterfallen, schnelle \u00c4nderungen und den Energieverbrauch.<\/li>\n\n\n\n<li><strong>Parallel Learning:<\/strong> F\u00fcr das simulationsbasierte Training von Steuerungsstrategien verwenden wir Isaac Gym, ein neueres GPU-basiertes Physiksimulations-Framework f\u00fcr das Roboterlernen. Dank des effizienten Parallelisierungsschemas von Isaac Gym sammeln wir Erfahrungen mit einer Gesamtzahl von 4096 Roboterinstanzen, die gleichzeitig trainiert werden.<\/li>\n\n\n\n<li><strong>Curriculum Learning: <\/strong>Um das Training zu beschleunigen, erforschen wir das schrittweise Erlernen der Aufgabe. Insbesondere erh\u00f6hen wir die gew\u00fcnschten Geschwindigkeitsbefehle, die der Roboter auf lineare Weise erreichen soll, so dass die Fortbewegungsaufgabe zun\u00e4chst in das Erlernen des Gleichgewichts des Roboters und dann in die langsame Bewegung mit immer h\u00f6heren linearen und winkligen Geschwindigkeiten zerlegt wird.<strong><\/strong><\/li>\n\n\n\n<li><strong>Perfect Simulator: <\/strong>Um die L\u00fccke zwischen Simulation und Realit\u00e4t zu verringern, erstellen wir ein physikalisch optimiertes Simulationsmodell des evoBOT-Roboters (siehe Abbildung 1). Zu diesem Zweck werden die Massen und Tr\u00e4gheitstensoren anhand eines genauen CAD-Modells mit mehr als 300 Einzelteilen und den entsprechenden physikalischen Eigenschaften neu berechnet. Au\u00dferdem werden physikalische Gelenkgrenzen in das Simulationsmodell aufgenommen, die auf Messungen am realen Roboter basieren.<\/li>\n\n\n\n<li><strong>Domain Randomization: <\/strong>Um die verbleibenden Unsicherheiten im Simulationsmodell zu ber\u00fccksichtigen, werden die Simulationsumgebungen randomisiert. Diese Randomisierung umfasst insbesondere die Roboterdynamik (z. B. Verbindungsmassen, Motorparameter), Verz\u00f6gerungen in der Kommunikationspipeline sowie das aus realen Messungen gesch\u00e4tzte Sensorrauschen.<\/li>\n<\/ol>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Methods-1-1024x510.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-31097\" title=\"\"><figcaption class=\"wp-element-caption\">Abbildung 2: Taxonomie des Guided Reinforcement Learning und ihre Anwendung auf das Erlernen der dynamischen Fortbewegung eines zweir\u00e4drigen Roboters. Ausgew\u00e4hlte Methoden f\u00fcr die Anwendung sind gelb hervorgehoben. <br>\u00a9 Fraunhofer IML<\/figcaption><\/figure>\n<\/div><\/div>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Experimentelle Ergebnisse &#8211; Performance bei dynamischer Fortbewegung<\/strong> <\/h2>\n\n\n\n<p>Wir trainieren eine einzige Regelungsstrategie sowohl f\u00fcr das robuste Balancieren als auch f\u00fcr die dynamische Fortbewegung mit bis zu 1m\/s des evoBOT-Roboters. Abbildung 3 zeigt die resultierende Verfolgungsleistung einer trainierten Richtlinie f\u00fcr kombinierte Balancierung und dynamische Fortbewegung des evoBOT. Das Experiment umfasst mehrere Phasen mit erh\u00f6htem Dynamikgrad. In Phase I (0-2 s) wird die Strategie aufgefordert, sich selbst aus einer schwierigen anf\u00e4nglichen Neigungsposition von bis zu 30 Grad zu balancieren. Phase II (2-6 s) besteht aus abwechselnden linearen Geschwindigkeitsbefehlen von \u00b10,5 m\/s, w\u00e4hrend Drehgeschwindigkeiten von bis zu \u00b11 rad\/s gefordert werden. In Phase III (6-10 s) \u00e4ndern sich sowohl die linearen als auch die winkligen Geschwindigkeitsbefehle augenblicklich, bevor sie wieder zum dynamischen Ausgleich zur\u00fcckkehren. Wie die Ergebnisse zeigen, lernt die Strategie, auf die vorgegebenen Geschwindigkeitsziele hochdynamisch zu reagieren und dabei an den physikalischen Grenzen des Systems zu operieren. Einerseits muss der Roboter, um solche schnellen \u00c4nderungen der linearen Geschwindigkeit zu realisieren, zun\u00e4chst in die entgegengesetzte Richtung beschleunigen, um das notwendige Kippmoment zu erzeugen. Andererseits lernt die Strategie, die durch die Motordynamik gegebenen Grenzen des physisch eingeschr\u00e4nkten Roboters auszunutzen, indem sie sowohl die H\u00f6chstgeschwindigkeit als auch die Beschleunigungsgrenzen erreicht.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Bild1-1-1-1024x760.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-31095\" title=\"\"><figcaption class=\"wp-element-caption\">Abbildung 3: Performance des lernbasierten Controllers f\u00fcr dynamische Fortbewegung. Oben: Tracking vorgegebener Zielgeschwindigkeiten, <br>Mitte: Output des neuronalen Netzes auf Motorebene, Unten: Einsatz der trainierten Regeln f\u00fcr eine Fortbewegungsaufgabe auf flachem Boden, unebenem Gel\u00e4nde und gestreckten Armen (von links nach rechts). <br>\u00a9 Fraunhofer IML<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Zusammenfassung<\/strong><\/h2>\n\n\n\n<p>In diesem Blogbeitrag haben wir die Anwendung von Guided RL auf die Aufgabe des Erlernens dynamischer Fortbewegung f\u00fcr evoBOT, einer neuartigen Roboterplattform zur Erforschung hochdynamischer Fortbewegung, behandelt. Insbesondere haben wir die ausgew\u00e4hlten Guided-RL-Methoden f\u00fcr diesen Anwendungsfall \u00fcberpr\u00fcft und die Gesamtleistung des lernbasierten Controllers diskutiert.<\/p>\n\n\n\n<p>Wenn Sie sich f\u00fcr die Roboterplattform interessieren, k\u00f6nnen Sie sich das <a href=\"https:\/\/git.openlogisticsfoundation.org\/silicon-economy\/simulation-model\/evobotsimmodel\" target=\"_blank\" rel=\"noreferrer noopener\">evoBOT Simulationsmodell<\/a> ansehen (als Open-Source verf\u00fcgbar) oder unser <a href=\"https:\/\/www.iml.fraunhofer.de\/de\/abteilungen\/b1\/iot-und-eingebettete-systeme-\/unsere-forschungsprojekte-\/evobot.html\" target=\"_blank\" rel=\"noreferrer noopener\">Entwicklungsteam direkt kontaktieren<\/a>. <\/p>\n\n\n\n<p>F\u00fcr weitere Details zum methodischen Ansatz und ein umfassendes Sim-to-Real-Benchmarking finden Sie hier einen Link zur entsprechenden Ver\u00f6ffentlichung, die dieses Jahr auf der <a href=\"http:\/\/www.iros25.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">IEEE International Conference on Intelligent Robots and Systems (IROS)<\/a> vorgestellt wurde.<\/p>\n\n\n\n<p>P. Klokowski <em>et al<\/em>., &#8222;evoBOT \u2013 Design and Learning-Based Control of a Two-Wheeled Compound Inverted Pendulum Robot,&#8220; <em>2023 IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS)<\/em>, Detroit, MI, USA, 2023, pp. 10425-10432, doi: 10.1109\/IROS55552.2023.10342128,<a href=\"https:\/\/ieeexplore.ieee.org\/document\/10342128\" target=\"_blank\" rel=\"noreferrer noopener\"> Link<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Guided RL zielt darauf ab, Steuerungsstrategien f\u00fcr reale Roboter auf effiziente und effektive Weise zu erlernen. Dieser Post untersucht die praktische Anwendung am Beispiel des Lernens von dynamischer Fortbewegung f\u00fcr einen zweir\u00e4drigen Roboter.<\/p>\n","protected":false},"author":16,"featured_media":3838,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,396,733],"blog-tag":[1587,1589,1596],"class_list":["post-4877","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-forschung","blog-category-rl-for-robotics-de","blog-tag-reinforcement-learning-de","blog-tag-robotik","blog-tag-simulation-de"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4877","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/16"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4877\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/3838"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4877"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4877"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4877"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}