Learning Conversational Action Repair for Intelligent Robots

2023-06-252024-02-062023-06-25https://hdl.handle.net/11420/15967Konversationelle natürliche Sprache unterliegt Rauschen, Unvollständigkeiten und grammatikalisch mehrdeutigen Formulierungen. Um die Robustheit der Kommunikation zu erhöhen, nutzen Gesprächspartner typischerweise Konversationelle Reparatur (KR) um iterativ und interaktiv Missverständnisse aufzulösen. Im Kontext der Mensch-Roboter Interaktion bietet KR vor allem die Möglichkeit, eine sich bereits in Ausführung befindliche falsch verstandene Instruktion zu unterbrechen und zu korrigieren. Aktuelle Forschungsansätze berücksichtigen die konversationelle Reparatur von Missverständnissen im Mensch-Roboter-Dialog nicht, obwohl dies die Robustheit der Mensch-Roboter Interaktion erheblich erhöhen würde. Ziel dieses Projekts ist es, diese Lücke zu schließen, indem zwei Kernprobleme behoben werden, die bisherige Ansätze bei der erfolgreichen Behebung von Konversationsmaßnahmen für die Mensch-Roboter-Interaktion behindert haben. Das erste Problem ist die Realisierung eines adaptiven kontextspezifischen Zustandsmodells, das Sprache und Handlung integriert. Die meisten Dialogsysteme betrachten nur verbale Kommunikation und ignorieren, dass menschliche Kommunikation ein körperlicher multimodaler Prozess ist, der stark auf physischer Interaktion beruht. Wie können wir also ein skalierbares Modell realisieren, das körperlich-konzeptuelle Zustandsdarstellungen für eine gemischte verbal-physikalische Interaktion berücksichtigt? Um dieses erste Problem zu adressieren, baut dieses Projekt auf einem neuro-symbolischen Ansatz auf, der unsere bisherigen Arbeiten zum verkörperten semantischen Parsen mit unserer Expertise in tiefem Reinforcement Learning integriert. Auf dieser Grundlage werden wir ein hybrides daten- und wissensbasiertes Modell für kompositionale Interaktionszustände untersuchen, das den physischen Weltzustand mit der Semantik in Sprache und Dialog verbindet. Das zweite Problem betrifft das Rauschen, die Unregelmäßigkeiten und die Polysemie der gesprochenen natürlichen Sprache. Bestehende lernbasierte Parser sind robust genug, um gesprochene Sprache zu analysieren, erfordern jedoch große Mengen an Trainingsdaten. Wie können wir also einen robusten semantischen Parser realisieren, der dateneffizient ist und gleichzeitig die gemischte verbal-physikalische Interaktion berücksichtigt? Um dieses zweite Problem zu adressieren, ergänzt dieses Projekt unsere bisherigen semantischen Parsing-Methoden mit Reinforcement Learning. Hierbei werden wir unter anderem das Belohnungssignal im Reinforcement Learning als zusätzliche Datenquelle nutzen, um den neuronalen Parser dateneffizienter zu trainieren. Wir erwarten, dass das Projekt neue Möglichkeiten in der Mensch-Roboter-Interaktion erzeugt, und neuartige Methoden für das Lernen von Repräsentation für die wissenschaftlichen Communities auf den Gebieten der computationellen Sprachverarbeitung, des maschinellen Lernens und der intelligenten Robotik bereitstellt.Conversational natural language is subject to noise, incompletions and grammatically ambiguous phrasing. To increase the robustness of communication, human conversation partners typically build on conversational repair (CR) to iteratively and interactively resolve misunderstandings. In the context of human-robot interaction, CR provides the possibility to interrupt and to repair a misunderstood instruction that is already being executed. However, current approaches do not consider the conversational repair of misunderstandings in human-robot dialog, even though this would significantly increase the robustness of human-robot interaction. The goal of this project is to fill this gap by addressing two core problems that have hindered existing approaches to successfully address conversational action repair for human-robot interaction. The first problem is the realization of an adaptive context-specific state model that integrates language with action. Most dialog systems consider only verbal communication, and they ignore that human communication is an embodied multi-modal process that is grounded in physical interaction. So how can we realize a scalable model that considers situated conceptual state representations for mixed verbal-physical interaction? To address this first problem, this project builds on a neuro-symbolic approach that integrates our previous work on embodied semantic parsing with our expertise in deep reinforcement learning. Herein, we will research a hybrid data- and knowledge-driven model for compositional interaction states that link the physical world state with semantics in language and dialog.The second problem pertains to the noise, disfluency, and polysemy of spoken natural language. Existing learning-based parsers are robust enough to parse noisy spoken language but they require large amounts of training data. So how can we realize a robust semantic parser that is data efficient while considering the mixed verbal-physical interaction? To address this second problem, this project complements our previous semantic parsing methods with a neural machine-translation approach. To this end, we will exploit the reward signal of the reinforcement learning as an additional data source to improve the data efficiency of the neural parser. The data required for this project will be generated using crowdsourcing, and the evaluation will be conducted on a humanoid robot. We expect the project to generate impact as a new approach for human-robot interaction, and to contribute novel methods for representation learning to the scientific communities in the fields of natural language understanding, machine learning, and intelligent robotics.Learning Conversational Action Repair for Intelligent RobotsLernen von konversationaller Aktionsreparatur für intelligente Roboter