Nächste Seite: Sprachverarbeitung Aufwärts: Diplomarbeit Vorherige Seite: Inhalt Inhalt

Einleitung

Mit Hilfe verfügbarer High-Level-Plansprachen (zum Beispiel GOLOG [48] oder RPL [37]) sind mobile Roboter in der Lage, komplexe Probleme zu lösen. Bis heute ist allerdings die Initiierung von Befehlen bzw. Interaktion mit einem Roboter nicht zufriedenstellend gelöst. Bisher werden in der Regel die Instruktionen durch Laden eines entsprechenden Programms gegeben bzw. die Interaktion durch Knöpfe ermöglicht. Ein gutes Beispiel ist das RHINO-Projekt [7]. Während eines Feldversuchs führte der mobile Roboter RHINO Besucher im ''Deutsches Museum Bonn'' durch die Ausstellung. Die Befehlseingabe war nur über vier auf der Oberseite des Roboters angebrachte farbige Knöpfe möglich. Die Funktion der einzelnen Knöpfe mußte den Besuchern jeweils erklärt werden.

Sprache ist ein wesentlicher Bestandteil der menschlichen Kommunikation. Die Frage ist, ob mit heutigen Produkten der Teilbereiche Spracherkennung, Sprachverarbeitung und Robotik eine solche Form der Mensch/Maschine-Interaktion realisiert werden kann.

Wenn wir die Fähigkeiten von Programmen der Einzelbereiche betrachten, so sind diese recht vielversprechend.

Auf dem Markt existieren bereits viele Spracherkennungssysteme. Als Beispiel seien hier kommerzielle Produkte wie IBM ViaVoice, DragonSpeech oder Philips FreeSpeech [28] genannt. Spracherkenner arbeiten im allgemeinen nicht fehlerfrei. Dies bedeutet, daß die durch einen Erkenner erhaltenen Wortketten falsche Wörter enthalten können, so daß eine Weiterverarbeitung der Wortfolge in einer Sprachverstehenskomponente fehlertolerant arbeiten muß.

Robuste Roboterkontrollsysteme (zum Beispiel das RHINO-System [7]) existieren ebenfalls. Auch für den Bereich der natürlichen Sprachverarbeitung liefern Systeme wie zum Beispiel DAWAI [15,39,38], CHAT [50], HAWK [56] und CyCorp [1,30] gute Ansätze. Auch VerbMobil [57] kann in diesem Zusammenhang als spracherkennendes und -verstehendes System im Bereich Terminabsprache genannt werden.

Der Einsatz von Sprache in der Mensch/Maschine-Kommunikation kann eine wesentliche Erleichterung im täglichen Umgang mit Robotern und roboterähnlichen Systemen bringen bzw. deren Akzeptanz deutlich erhöhen.

Ziel dieser Arbeit ist der Entwurf und die Implementierung einer robusten und leicht erweiterbaren bzw. veränderbaren Sprachschnittstelle zu obigen Plansprachen in bezug auf die Fähigkeiten des mobilen Roboters CARL (Modell RWI B21). Dabei ist zu klären, inwieweit freie und natürliche Sprache (Spontansprache) mit den verwendeten Komponenten verarbeitet werden kann. Robustheit ist hier in bezug auf ein stabiles Roboterverhalten zu sehen und nicht auf Einzelkomponenten des Systems wie zum Beispiel die Spracherkennung. Dies beinhaltet im einzelnen die möglichst zuverlässige Erkennung einfacher Befehle, welche auf Programme einer Plansprache wie zum Beispiel GOLOG abgebildet werden, den Ausschluß von katastrophalem Fehlverhalten des Roboters und die Gewährleistung einer ständigen Unterbrechbarkeit von Einzelkommandos bzw. des ganzen Systems. Die letzte Forderung ist notwendig, da die verwendete Robotersoftware keine hundertprozentige Garantie für die korrekte Ausführung eines GOLOG-Programms gewährleisten kann. Aufgrund des Ausfalls von einzelnen Modulen kann es immer noch zu nicht vorhersehbaren Aktionen des Roboters kommen.

Des weiteren soll der Aufbau des Systems modular gestaltet werden. Gerade im Bereich der Spracherkennung sind die verwendeten Produkte nicht für jeden Personenkreis erhältlich bzw. andere und vielleicht bessere Komponenten in Zukunft verfügbar.

Eine solche Sprachschnittstelle soll hier anhand einer Büroumgebung verdeutlicht werden. Beispiele für die Abbildung eines gesprochenen Kommandos sind unter anderem:

Carl hole bitte einen Kaffee für Henrik.
$\Rightarrow$ ''bring_coffee_to(Henrik).''
Carl bringe diesen Brief zu Gero
$\Rightarrow$ ''deliver_letter_from_to($USER, Gero).'',
wobei $USER den Auftraggeber bezeichnet
Carl sofort anhalten
$\Rightarrow$ ''emergency_stop.''

Die Problemstellung gliedert sich in zwei Bereiche. Der erste Bereich umfaßt die allgemeinen Möglichkeiten und die Güte der Spracherkennung. Es werden zwei verschiedene Spracherkennersysteme verwendet: ein System des Lehrstuhls für Informatik VI der RWTH Aachen sowie das kommerzielle VoCon-System von Philips. Die Anpassungen der Spracherkennungssoftware an die spezielle Problemstellung sollen möglichst minimal ausfallen, damit zum einen später auch andere Spracherkenner leicht eingebaut werden können und zum anderen neue Befehle (also GOLOG Programme) schnell in das bestehende System integriert werden können. Der zweite Bereich beinhaltet die Anbindung an die Planungsebene. An dieser Stelle müssen die Äußerungen des Benutzers interpretiert und entsprechend weitergeleitet werden. Da die gelieferte Wortkette fehlerhaft sein kann, muß dies während der semantischen Auswertung berücksichtigt werden. Auch korrekte Wortketten müssen bei Mehrdeutigkeiten im Kontext sehr genau betrachtet werden. Das Robotersystem stellt in diesem Zusammenhang kein Problem dar. Es wird die Software des oben erwähnten RHINO-Projekts (beeSoft) verwendet. Die Robustheit dieses Systems wurde in [7] gezeigt.

Das System hat folgenden Aufbau :

$\resizebox* {11cm}{1.43cm}{\includegraphics{Bilder/Abb_1_1.eps}}$
Abb. 1.1: Allgemeiner Aufbau des Gesamtsystems

In Verbindung mit zwei parallel verlaufenden Diplomarbeiten [58,13] zum Thema ''Multi-Roboter-Umgebungen'' (MR) soll ebenfalls eine Anbindung an das dort entwickelte System erfolgen. Dabei soll die Steuerung einer inhomogenen Menge von Robotern zum Teil zentralisiert werden. Inhomogen bezieht sich auf die Bauart, aber auch auf die verwendete Software der Roboter. Dafür muß der Aufbau etwas variiert werden.

$\resizebox* {11cm}{3.35cm}{\includegraphics{Bilder/Abb_1_2.eps}}$
Abb. 1.2: Allgemeiner Aufbau der Anbindung
an das Multi-Roboter (MR) Gesamtsystem

Ein interessanter Aspekt dabei ist die Möglichkeit, Konzepte in einer Datenbank (ConceptBase [33]) abzuspeichern, die dem Parser während der Laufzeit zur Verfügung stehen. Dadurch könnte der Parser dynamisch neue Konzepte einladen. Eine genauere Beschreibung folgt in 5.3.3.

In den folgenden Kapiteln werden zunächst die Grundlagen der Teilbereiche etwas genauer dargestellt. In Kapitel 2 werden einige Grundlagen der Sprachverarbeitung erläutert. Der Schwerpunkt wird dabei auf die statistische Spracherkennung (2.2) gelegt. Am Ende des Erkennungsvorgangs erhält man eine oder mehrere Wortfolgen, die interpretiert werden müssen. Im zweiten Abschnitt dieses Kapitels werden einige Ansatzpunkte für eine allgemeine sprachinterpretierende Funktion erläutert (2.3). In Kapitel 3 wird die eingesetzte Planungssprache (GOLOG) sowie in Kapitel 4 die verwendete Robotersoftware (beeSoft) beschrieben. Die Realisierung der Sprachsteuerung, also die verwendeten Komponenten und ihre Anbindung untereinander, werden in Kapitel 5 und die erhaltenen Ergebnisse in Kapitel 6 beschrieben.

Nächste Seite: Sprachverarbeitung Aufwärts: Diplomarbeit Vorherige Seite: Inhalt Inhalt

2001-01-04