{"id":4853,"date":"2023-07-26T05:00:24","date_gmt":"2023-07-26T05:00:24","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/guided-reinforcement-learning-angewandt-in-der-robotik\/"},"modified":"2025-11-12T14:54:21","modified_gmt":"2025-11-12T14:54:21","slug":"guided-reinforcement-learning-angewandt-in-der-robotik","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/guided-reinforcement-learning-angewandt-in-der-robotik\/","title":{"rendered":"Guided Reinforcement Learning \u2013 Anwendung auf drei Lernaufgaben aus der Robotik\u00a0"},"content":{"rendered":"\n<p><a href=\"https:\/\/lamarr-institute.org\/de\/guided-reinforcement-learning-und-robotik\/\" target=\"_blank\" rel=\"noreferrer noopener\">Im letzten Blogbeitrag unserer Serie RL for Robotics haben wir bereits die Grundlagen des Guided Reinforcement Learning<\/a> (RL) kennengelernt \u2013 ein Konzept zur Beschleunigung des Trainingsprozesses und zur Verbesserung der Performance f\u00fcr die reale Robotik. Insbesondere haben wir die Guided Reinforcement Learning Taxonomie eingef\u00fchrt \u2013 eine modulare Toolbox zur Integration verschiedener Wissensquellen in die RL-Pipeline (siehe Abb. 1). Diese Toolbox zeigt auf praktische Weise, wie zus\u00e4tzliches Wissen (linke Spalte) \u00fcber eine Reihe von Guided RL-Methoden (mittlere Spalte) in vier spezifischen Schritten in die RL-Pipeline (rechte Spalte) integriert werden kann. Anhand der vier Schritte der Reinforcement Learning-Pipeline erkundet dieser Blogbeitrag, wie Guided RL auf drei sehr unterschiedliche Roboteraufgaben \u2013 dynamische Fortbewegung, robuste Manipulation und Multi-Roboter-Navigation \u2013 angewendet werden kann und schafft damit ein intuitives Verst\u00e4ndnis f\u00fcr die Anwendung der Methoden und der Toolbox.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full wp-duotone-midnight\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Grafik_2_Taxonomy-1.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-29315\" title=\"\"><figcaption class=\"wp-element-caption\">Abb. 1: \u00dcberblick \u00fcber die Taxonomie des Guided RL.<br>  \u00a9 Fraunhofer IML<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Pipeline Schritt 1: Problemdarstellung (Zust\u00e4nde, Belohnungen, Aktionen)&nbsp;<\/h2>\n\n\n\n<p>Im ersten Schritt der Anwendung von Guided Reinforcement Learning geht es um die Abbildung des realen Robotikproblems in die formale Beschreibung, die dem RL zugrunde liegt. Zu diesem Zweck kann zus\u00e4tzliches Wissen in die Zustandsrepr\u00e4sentation integriert werden (Abb. 2a), eine aufgabenspezifische Belohnungsfunktion formuliert werden (Abb. 2b) und aufgabenspezifische Aktionen (Abb. 2c) f\u00fcr ein gew\u00fcnschtes Lernproblem spezifiziert werden. Im Folgenden werden wir jede dieser drei Methoden anhand unserer beispielhaften Roboteranwendungen untersuchen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Fig_2_Pipeline_Step_1-1.svg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-29868\" title=\"\"><figcaption class=\"wp-element-caption\">Abb. 2: Pipeline Schritt 1: Guided Reinforcement Learning-Methoden werden in die Problemdarstellung integriert. (a) Eine erweiterte Zustandsdarstellung. (b) Die Verwendung einer dichten Belohnungsfunktion, um die Strategie zur Konvergenz zu f\u00fchren. (c) Abstraktes Lernen in verschiedenen Handlungsr\u00e4umen.&nbsp;<br>\u00a9 Fraunhofer IML<\/figcaption><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>State Representation<\/strong> beschreibt den beobachtbaren Raum des Lernansatzes, wobei Ans\u00e4tze typischerweise darauf abzielen, den Zustand in aussagekr\u00e4ftigere Darstellungen zu transformieren oder zu erweitern. F\u00fcr die beispielhafte Anwendung der Multi-Roboter-Navigation k\u00f6nnte dies zum Beispiel bedeuten, dass zus\u00e4tzliche Sensorsignale wie Laserscanner oder Tiefenkameras in den Beobachtungsraum integriert werden. Obwohl beide Sensormesswerte hochdimensionale R\u00e4ume enthalten, w\u00fcrden Laserscanner wahrscheinlich die Effizienz der Lernaufgabe verbessern und daher in Bezug auf die Zustandsdarstellung f\u00fcr diese Aufgabe bevorzugt werden.&nbsp;<\/li>\n\n\n\n<li><strong>Reward Design<\/strong> umfasst Techniken zur Wissensinduktion durch den Entwurf geeigneter dichter Belohnungsfunktionen oder automatische Lernverfahren. F\u00fcr das Beispiel der dynamischen Fortbewegung w\u00fcrde die Belohnungsfunktion aus mehreren Optimierungskriterien bestehen. Zu den Belohnungsbedingungen k\u00f6nnten beispielsweise das Befolgen vorgegebener Geschwindigkeitsbefehle, die Verringerung des Gesamtenergieverbrauchs oder die F\u00f6rderung bestimmter Fortbewegungsarten (Traben, Springen, Laufen usw.) geh\u00f6ren.&nbsp;<\/li>\n\n\n\n<li><strong>Abstract Learning<\/strong> beschreibt die Auswahl eines aufgabenspezifischen Aktionsraums f\u00fcr ein Robotikproblem, der potenziell mit modellbasierten Ans\u00e4tzen hybridisiert werden kann. F\u00fcr unser Beispiel des Erlernens einer robusten Manipulation w\u00fcrde ein direkter Ansatz darin bestehen, dass das neuronale Netz die Gelenke des Roboters direkt steuert. Durch die Integration von vorhandenem Steuerungswissen f\u00fcr die Low-Level-Operation k\u00f6nnte das neuronale Netz jedoch auch auf der Aufgabenebene operieren, z. B. durch die direkte Steuerung der Endeffektor-Position, wodurch die Dateneffizienz des Trainingsprozesses erh\u00f6ht werden kann.&nbsp;<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Pipeline Schritt 2: Lernstrategie (Algorithmische Designentscheidungen)&nbsp;<\/h2>\n\n\n\n<p>Der zweite Schritt der Guided Reinforcement Learning-Anwendung befasst sich mit der Integration von Wissen in Bezug auf die Lernstrategie. Durch das Training der Richtlinien auf einem aufgezeichneten Datensatz (Abb. 3a), die Anwendung paralleler Lernarchitekturen f\u00fcr ein bestimmtes Problem (Abb. 3b) oder die Verwendung von Demonstrationsbeispielen (Abb. 3c) kann die Lernstrategie beschleunigt und die Performance verbessert werden.&nbsp;<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Fig_3_Pipeline_Step_2-1.svg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-29873\" title=\"\"><figcaption class=\"wp-element-caption\">Abb. 3: Pipeline Schritt 2: Guided RL-Methoden werden in die Lernstrategie integriert. (a) Offline-Reinforcement Learning aus einem aufgezeichneten Datensatz. (b) Paralleles Lernen mit mehreren Samplern und Trainern. (c) Lernen auf Basis von Demonstrationen.&nbsp;&nbsp;<br>\u00a9 Fraunhofer IML<\/figcaption><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Offline RL <\/strong>konzentriert sich auf die Verwendung von Offline-Daten und versucht, mit RL aus aufgezeichneten Trainingss\u00e4tzen effizient Richtlinien zu lernen. F\u00fcr unsere Anwendung der Multi-Roboter-Navigation k\u00f6nnte dies zum Beispiel das Sammeln von Daten aus realen Experimenten in der gew\u00fcnschten Umgebung beinhalten. Durch die explizite Erfassung des Verhaltens von Robotern und dynamischen Hindernissen unter den gegebenen geometrischen Bedingungen k\u00f6nnten diese Daten verwendet werden, um die Effizienz zu verbessern und somit das Training der Reinforcement Learning-Policies zu beschleunigen.&nbsp;&nbsp;<\/li>\n\n\n\n<li><strong>Parallel Learning <\/strong>befasst sich mit der Parallelisierung der algorithmischen Komponenten unter Ber\u00fccksichtigung der Skalierbarkeit und Robustheit des Lernprozesses. Im Falle der dynamischen Fortbewegung k\u00f6nnte dieser Ansatz beispielsweise dazu verwendet werden, verschiedene Arten von Umgebungen zu simulieren, in denen man sich gleichzeitig bewegt. Einerseits k\u00f6nnte auch die Leistung des lernbasierten Controllers beim Training unter verschiedenen Umgebungsbedingungen verbessert werden. Andererseits k\u00f6nnte dieser Ansatz das Training des Roboters durch die parallele Berechnung der Umgebungen beschleunigen.&nbsp;<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Learning from Demonstration <\/strong>zielt darauf ab, vorhandene Beispiele zu nutzen und sie in den Lernprozess zu integrieren, um sowohl die Leistung als auch die Dateneffizienz des Trainings zu verbessern. Der Einsatz dieser Methode auf unsere Anwendung der robusten Manipulation k\u00f6nnte beispielsweise bedeuten, eine Reihe von Beispielen anhand desrealen Roboters zu sammeln und diese Beispiele dann f\u00fcr das Training des lernbasierten Reglers zu verwenden, wodurch die Dateneffizienz im Vergleich verbessert wird.&nbsp;&nbsp;&nbsp;<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Pipeline Schritt 3: Aufgabenstrukturierung (Aufschl\u00fcsselung des Problems)&nbsp;<\/h2>\n\n\n\n<p>Im dritten Schritt der Anwendung von Guided Reinforcement Learning wird weiteres Wissen im Sinne einer Strukturierung der Lernaufgabe in Abh\u00e4ngigkeit von der Komplexit\u00e4t der realen Robotersituation einbezogen. Zum Beispiel k\u00f6nnte eine komplexe Aufgabe schrittweise mit steigendem Schwierigkeitsgrad gelernt werden (Abb. 4a) oder in mehrere kleineren Aufgaben aufgeteilt werden (Abb. 4b).&nbsp;<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Fig_4_Pipeline_Step_3-1.svg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-29875\" title=\"\"><figcaption class=\"wp-element-caption\">Abb. 4: Pipeline Schritt 3: Guided RL-Methoden wird in die Aufgabenstrukturierung integriert. (a) Curriculum-Lernen f\u00fcr Aufgaben mit steigender Komplexit\u00e4t. (b) Hierarchisches RL mit dedizierten Low-Level-Policies f\u00fcr verschiedene Teilaufgaben.<br>&nbsp;\u00a9 Fraunhofer IML<\/figcaption><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Curriculum Learning<\/strong> basiert auf der Idee, eine komplexe Aufgabe zu strukturieren, indem man iterativ einfachere Aufgaben mit h\u00f6herem Schwierigkeitsgrad l\u00f6st. In unserem Fall des Erlernens der Multi-Roboter-Navigation k\u00f6nnte dies zum Beispiel bedeuten, dass das Reinforcement Learning-Training mit nur einem Roboter beginnt, der in einer einfachen Umgebung navigiert. Im weiteren Verlauf des Trainings k\u00f6nnten schrittweise mehrere Roboter sowie andere, anspruchsvollere Umgebungen in das Training einbezogen werden. Die Entscheidung, wann der Schwierigkeitsgrad erh\u00f6ht werden soll, k\u00f6nnte entweder vordefiniert werden, z. B. auf der Grundlage der w\u00e4hrend des Trainings verstrichenen Zeit, oder automatisiert werden, indem sie an die tats\u00e4chliche Leistung des Agenten gekoppelt wird.&nbsp;<\/li>\n\n\n\n<li><strong>Hierarchical Learning<\/strong> nutzt die hierarchische Struktur, die der Lernaufgabe zugrunde liegt, um verschiedene Teilaufgaben zu l\u00f6sen oder Strategien auf hoher und niedriger Ebene einzusetzen. Zum Erlernen der dynamischen Fortbewegung, z. B. eines Roboters mit Beinen, der schwieriges Gel\u00e4nde durchquert, k\u00f6nnte diese Methode verwendet werden, um verschiedene neuronale Netze zu trainieren, die entweder von der Art der Umgebung oder der gew\u00fcnschten Fortbewegungsgeschwindigkeit abh\u00e4ngen. Die Fortbewegung in verschiedenen Umgebungen k\u00f6nnte unterschiedliche Fortbewegungsarten wie Gehen, Laufen, Springen oder Klettern erfordern. Die Fortbewegung mit unterschiedlichen Zielgeschwindigkeiten k\u00f6nnte bedeuten, dass verschiedene Gangarten trainiert werden, wobei jede einzelne die zugrunde liegende Energieeffizienz optimiert. In beiden F\u00e4llen k\u00f6nnte eine \u00fcbergeordnete Strategie entscheiden, welches der trainierten Netze w\u00e4hrend der Anwendung in Abh\u00e4ngigkeit von den Befehlen oder Umgebungsbedingungen ausgew\u00e4hlt werden soll.&nbsp;&nbsp;<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Pipeline Schritt 4: Sim-to-Real (Transfer in die echte Welt)&nbsp;<\/h2>\n\n\n\n<p>Schlie\u00dflich k\u00f6nnte auch zus\u00e4tzliches Wissen in den Trainingsprozess integriert werden, um die L\u00fccke zwischen Simulation und Realit\u00e4t zu schlie\u00dfen und somit die trainierten Strategien auf die realen Roboter zu \u00fcbertragen. Dies k\u00f6nnte das Streben nach genaueren Simulationen (Abb. 5a), die Verwendung von Domain Randomization auf verschiedenen simulierten Datens\u00e4tzen (Abb. 5b) oder Domain Adaptation zur \u00dcbertragung zwischen verschiedenen Dom\u00e4nen (Abb. 5c) umfassen.&nbsp;<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Fig_5_Pipeline_Step_4-1.svg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-29877\" title=\"\"><figcaption class=\"wp-element-caption\">Abb. 5: Pipeline Schritt 1: Guided RL-Methoden werden f\u00fcr den Sim-to-Real Transfer integriert. (a) Perfekte Simulatoren zur Minimierung der Realit\u00e4tsl\u00fccke. (b) Domain Randomization f\u00fcr diversifizierte Simulationen. (c) Domain Adaptation zur Anpassung zwischen Dom\u00e4nen.<br>&nbsp;\u00a9 Fraunhofer IML<\/figcaption><\/figure>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Perfect Simulators<\/strong> zielen darauf ab, realistischere Simulationsumgebungen in Bezug auf genaue Robotermodelle, Physikberechnungen und Umgebungsdarstellung zu schaffen. Beim Erlernen der dynamischen Fortbewegung k\u00f6nnte zus\u00e4tzliches Wissen \u00fcber das Robotersystem integriert werden, um ein genaueres Simulationsmodell zu erstellen. So k\u00f6nnten beispielsweise reale Messungen durchgef\u00fchrt werden, um genauere Massenverteilungen der Roboterglieder, Reaktionen der Aktoren bei hohen Lasten oder realistischere Bodenkontaktmodelle zu erhalten.&nbsp;<\/li>\n\n\n\n<li><strong>Domain Randomization<\/strong> ist der Versuch, die Strategien robuster zu machen, indem die Simulation in Bezug auf die visuellen oder dynamischen Eigenschaften stark randomisiert wird. Mit dieser Methode k\u00f6nnen Manipulationsstrategien trainiert werden, die gegen\u00fcber verschiedenen \u00c4nderungen sowohl der Roboterdynamik als auch der Umgebungswahrnehmung robust sind. Durch das Trainieren der Strategien auf variierende Parameter der Roboterdynamik, wie z. B. Gelenkmassen, Gelenksteifigkeiten oder Greiferdrehmomentgrenzen, k\u00f6nnte die Leistung der Strategie sogar f\u00fcr verschiedene Roboterplattformen verbessert werden. Andererseits k\u00f6nnte dieser Ansatz auch dazu verwendet werden, die Umgebung zu randomisieren, z. B. durch die Integration von Rauschen in die Beobachtungsdaten oder die zuf\u00e4llige \u00c4nderung der Positionen und Parameter der in der Szene enthaltenen Objekte, was zu robusteren Strategien f\u00fcr sich \u00e4ndernde Umgebungsbedingungen f\u00fchren w\u00fcrde.&nbsp;&nbsp;<\/li>\n\n\n\n<li><strong>Domain Adaptation<\/strong> Bei diesen Ans\u00e4tzen wird in der Regel ein Anpassungsmodul eingesetzt, um Beobachtungen zwischen der simulierten und der realen Welt oder umgekehrt zu \u00fcbertragen. F\u00fcr die Anwendung der Multi-Roboter-Navigation k\u00f6nnte diese Methode zum Beispiel verwendet werden, um eine realistischere Kamerawahrnehmung in das Training einzubeziehen, z.B. durch Projektion von realen Kamerabildern in die Simulationen. Andererseits k\u00f6nnte dieser Ansatz auch angewandt werden, um den Umgang mit verschiedenen Umwelteigenschaften, wie z. B. unterschiedlichen Terrains oder Aktordynamiken, zu erm\u00f6glichen, um die \u00dcbertragung der trainierten Strategien auf die reale Welt zu verbessern.&nbsp;&nbsp;<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Zusammenfassung&nbsp;<\/h2>\n\n\n\n<p>In diesem Blog-Beitrag wurde gezeigt, wie Guided Reinforcement Learning auf drei sehr unterschiedliche Roboteraufgaben angewendet werden kann \u2013 mit dem Potenzial, den Trainingsprozess zu beschleunigen und den Erfolg in der realen Robotik zu verbessern. In den folgenden Monaten wird diese Blogpost-Reihe schrittweise ausgebaut \u2013 wir werden uns ansehen, wie die Methoden des Guided RL auf reale Roboterherausforderungen angewendet werden k\u00f6nnen \u2013 einschlie\u00dflich Diskussion verschiedener Roboterplattformen, der angewendeten Methoden der Guided RL-Taxonomie und Einsatz der trainierten Policies auf den realen Robotern \u2013 also bleiben Sie dran!&nbsp;&nbsp;<\/p>\n\n\n\n<p>F\u00fcr weitere Details zum Guided RL, einen umfassenden \u00dcberblick \u00fcber den Stand der Technik sowie zuk\u00fcnftige Herausforderungen und Richtungen verweisen wir auf die entsprechende Ver\u00f6ffentlichung im IEEE Robotics and Automation Magazine (IEEE-RAM), die unter folgendem Link verf\u00fcgbar ist (Open-Access): <a href=\"https:\/\/ieeexplore.ieee.org\/abstract\/document\/9926159\" target=\"_blank\" rel=\"noreferrer noopener\">Guided Reinforcement Learning: A Review and Evaluation for Efficient and Effective Real-World Robotics | IEEE Journals &amp; Magazine | IEEE Xplore<\/a>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Guided RL zielt darauf ab, Steuerungsstrategien f\u00fcr reale Roboter auf effiziente und effektive Weise zu erlernen. Wir zeigen, wie die vorgestellte modulare Toolbox f\u00fcr drei sehr unterschiedliche Roboteraufgaben angewendet werden kann.<\/p>\n","protected":false},"author":16,"featured_media":3815,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,396,733],"blog-tag":[1587,1589,1596,1611],"class_list":["post-4853","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-forschung","blog-category-rl-for-robotics-de","blog-tag-reinforcement-learning-de","blog-tag-robotik","blog-tag-simulation-de","blog-tag-taxonomie"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4853","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/16"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4853\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/3815"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4853"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4853"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4853"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}