Language grounding in deep reinforcement learning for dynamic goal-oriented robotics

Ay, NihatNihatAy11426485910000-0002-8527-2579Röder, FrankFrankRöder2026-05-212026-05-212026Technische Universität Hamburg (2026)https://hdl.handle.net/11420/63067Researchers have long attempted to teach robots and other embodied artificial agents to follow instructions, approaching language as the primary medium for communication, knowledge transfer, and cognition. While toddlers excel at language acquisition and utilizing it for problem-solving, robots and voice-based assistants struggle to achieve a grounded and robust understanding of natural language due to conversational noise, such as disfluencies and polysemy. This thesis investigates the limitations in language grounding that currently hinder the development of intelligent agents to comprehend and execute lingual goals, as well as their capacity to revise misinterpretations arising from underspecified or ambiguous instructions. We utilize a sparse reward-driven language-conditioned reinforcement learning setup and leverage insights from cognitive science and developmental psychology, presented in the following two pillars. The first pillar explores the utilization of linguistic feedback and egocentric speech as mechanisms for learning from unsuccessful outcomes, by implementing a synthetic caretaker that provides feedback when the agent deviates from the expected course of actions. Unintended deviations may prove beneficial as alternative goal specifications, potentially satisfying different objectives. For instance, a robot might be assigned to prepare a cup of tea, but ends up brewing coffee instead, thereby accomplishing an unintended objective, in this case a different goal. In the case of egocentric speech, our research focuses on developing a multimodal translation model, designed to generate appropriate goal specifications based on observed behaviors. The model retrospectively predicts suitable goal commands that align with the observed actions, used for learning in hindsight. Both approaches of linguistic feedback and egocentric speech aim to emulate aspects of language development in young children and significantly enhance sample efficiency in robotic reinforcement learning. The second pillar addresses the challenge of action correction, specifically targeting erroneous behaviors stemming from misinterpretations of goal specifications. We identify three distinct categories of misunderstanding: ambiguities arising from underspecified statements, unintentional miscommunications (e.g., erroneously conveyed intentions), and discrepancies in common ground between the instructor and the robotic agent. Instead of learning with a different goal specification in hindsight, like in the first pillar, we aim to correct the misunderstanding through further verbal input from the operator. This provides an additional challenge for the agent, which needs to reconsider the original language goal given the new context and the returned action correction. By implementing a novel approach that incorporates the uncertainty about the actual goal and utilizing our methods from the first pillar, we demonstrate that egocentric speech significantly improves learning by generating action corrections in hindsight. We highlight this context-sensitive hindsight approach as the first in this domain to enhance the resolution of misunderstandings.Forscherinnen und Forscher versuchen seit Langem, Robotern und anderen verkörperten künstlichen Agenten beizubringen, Anweisungen zu befolgen, wobei Sprache als primäres Medium für Kommunikation, Wissenstransfer und Kognition betrachtet wird. Während Kleinkinder beim Spracherwerb und bei der Nutzung von Sprache zur Problemlösung herausragende Fähigkeiten zeigen, haben Roboter und sprachbasierte Assistenten Schwierigkeiten, ein fundiertes und robustes Verständnis natürlicher Sprache zu erreichen, da Konversationen durch Störfaktoren wie Unflüssigkeiten und Polysemie geprägt sind. Diese Dissertation untersucht die Grenzen der Sprachverankerung, die derzeit die Entwicklung intelligenter Agenten daran hindern, sprachliche Ziele zu verstehen und auszuführen, sowie deren Fähigkeit, Fehlinterpretationen zu revidieren, die aus unterspezifizierten oder mehrdeutigen Anweisungen entstehen. Wir nutzen ein auf sparse rewards basierendes, sprachkonditioniertes Reinforcement-Learning-Setting und stützen uns auf Erkenntnisse aus der Kognitionswissenschaft und Entwicklungspsychologie, die in den folgenden zwei Säulen dargestellt werden. Die erste Säule untersucht die Nutzung sprachlichen Feedbacks und egozentrischer Sprache als Mechanismen zum Lernen aus erfolglosen Ergebnissen, indem ein synthetischer Betreuer implementiert wird, der Feedback gibt, wenn der Agent vom erwarteten Handlungsverlauf abweicht. Unbeabsichtigte Abweichungen können sich als alternative Zielbeschreibungen als nützlich erweisen und möglicherweise andere Zielsetzungen erfüllen. So könnte ein Roboter beispielsweise den Auftrag erhalten, eine Tasse Tee zuzubereiten, am Ende jedoch Kaffee brühen und damit ein unbeabsichtigtes Ziel erreichen, in diesem Fall ein anderes Ziel. Im Fall der egozentrischen Sprache konzentriert sich unsere Forschung auf die Entwicklung eines multimodalen Übersetzungsmodells, das darauf ausgelegt ist, auf Grundlage beobachteter Verhaltensweisen geeignete Zielbeschreibungen zu generieren. Das Modell sagt rückblickend passende Zielanweisungen voraus, die mit den beobachteten Handlungen übereinstimmen und für das Lernen im Nachhinein verwendet werden. Beide Ansätze, sprachliches Feedback und egozentrische Sprache, zielen darauf ab, Aspekte der Sprachentwicklung bei Kleinkindern nachzuahmen, und verbessern die Stichprobeneffizienz im robotischen Reinforcement Learning erheblich. Die zweite Säule befasst sich mit der Herausforderung der Handlungskorrektur und zielt insbesondere auf fehlerhafte Verhaltensweisen ab, die aus Fehlinterpretationen von Zielbeschreibungen entstehen. Wir identifizieren drei unterschiedliche Kategorien von Missverständnissen: Mehrdeutigkeiten aufgrund unterspezifizierter Aussagen, unbeabsichtigte Fehlkommunikation, zum Beispiel falsch übermittelte Intentionen, und Unterschiede im gemeinsamen Wissenshintergrund zwischen der instruierenden Person und dem robotischen Agenten. Anstatt wie in der ersten Säule im Nachhinein mit einer anderen Zielbeschreibung zu lernen, wollen wir das Missverständnis durch weitere verbale Eingaben der Bedienperson korrigieren. Dies stellt den Agenten vor eine zusätzliche Herausforderung, da er das ursprüngliche sprachliche Ziel unter Berücksichtigung des neuen Kontexts und der zurückgegebenen Handlungskorrektur neu bewerten muss. Durch die Implementierung eines neuartigen Ansatzes, der die Unsicherheit über das tatsächliche Ziel einbezieht und unsere Methoden aus der ersten Säule nutzt, zeigen wir, dass egozentrische Sprache das Lernen erheblich verbessert, indem sie Handlungskorrekturen im Nachhinein generiert. Wir stellen diesen kontextsensitiven Hindsight-Ansatz als den ersten in diesem Bereich heraus, der die Auflösung von Missverständnissen verbessert.enhttps://creativecommons.org/licenses/by/4.0/Reinforcement LearningLanguage GroundingDevelopmental RoboticsEmbodied IntelligenceDeep LearningMachine LearningComputer Science, Information and General Works::006: Special computer methods::006.3: Artificial Intelligence::006.31: Machine LearningLanguage grounding in deep reinforcement learning for dynamic goal-oriented roboticsDoctoral Thesishttps://doi.org/10.15480/882.1709810.15480/882.17098Murena, Pierre-AlexandrePierre-AlexandreMurena