next up previous contents
Nächste Seite: Der semantische Parser Aufwärts: Die Einzelkomponenten Vorherige Seite: Die Einzelkomponenten   Inhalt


Die Spracherkennung

Die DFAs der Spracherkenner wurden mit 300 parametrisierten Sätzen aufgebaut (siehe Anhang B). Daraus ergibt sich ein Wortschatz von knapp 200 Vokabeln. Das minimierte linguistische Modell hat ungefähr 400 Zustände. Das im Anhang aufgeführte Modell würde bei naiver Konstruktion zu einem Präfixautomaten mit über 130.000 Zuständen führen. Daher wurde für den I6-Erkenner ein kleineres und nachträglich bearbeitetes Modell mit etwas mehr als 1100 Zuständen verwendet. Es standen 1290 sprachliche Äußerungen von zwei weiblichen und sieben männlichen Personen zur Verbesserung der Erkennungsleistungen zur Verfügung. Aussagekräftige Fehlerraten konnten mit diesem Material nicht bestimmt werden.

Der Philips VoCon arbeitet mit einem automatisch erstellten Vokabular. Dieses wurde mit der Software VoConBuilder erzeugt. Zur Erstellung wird dabei ein vortrainiertes Phonemmodell verwendet. Das Vokabular des I6-Erkenners wurde mit am Lehrstuhl Informatik VI vorhandenen Daten trainiert. Zusätzlich wurde mit der oben erwähnten Sprachsammlung ein Nachtraining durchgeführt.

Da die beiden Spracherkenner mit unterschiedlichen Daten trainiert wurden, wären, mit den gleichen Testdaten erhaltene Fehlerraten, immer noch nur bedingt aussagefähig. Aufgrund der in 6.3.2 beschriebenen Daten und der Berechnungen in 6.2.2 kann eine approximierte Fehlerrate von 10% angegeben werden.

Die Betrachtungen unter Testbedingungen haben ergeben, daß die verwendeten Erkenner auch in der eingeschränkten Domäne erhebliche Probleme bei der Erkennung spontaner Sprache haben. Je stärker das Sprachmodell und damit auch das Vokabular eingeschränkt wird, desto besser werden die erkannten Wortfolgen. Der I6-Erkenner hat zusätzlich das Problem, daß ein freieres Modell auch sehr viele Zustände in einem Präfixautomaten ergibt und teilweise gar nicht mehr zu verarbeiten ist. Ein zu kleines Modell hat aber den Nachteil, daß selbst Äußerungen, die nichts mit der Domäne zu tun haben, also keinen Auftrag bezeichnen, die Ausgabe einer nach dem Modell möglichen Wortkette zur Folge haben könnten. Dies sollte im Hinblick auf die Weiterverarbeitung möglichst nicht auftreten. Es existiert also ein Trade-off zwischen großen, freien Modellen und der Genauigkeit der erkannten Wortketten. Das erstellte Modell sollte also so detailliert wie möglich, aber so klein wie nötig sein.

Nehmen wir als Basis eine im DFA modellierte Wortkette. Bei Einsetzungen gegenüber diesem Satz reagiert der VoCon-Erkenner aufgrund des Keyword-Spotting flexibler, also hat er zunächst ein geringeres Fehlerpotential als der I6-Erkenner. Durch das oben angesprochene Nachtraining wird dieser Nachteil in der realen Anwendung wieder ausgeglichen.

Die exemplarischen Tests haben ergeben, daß die meisten verbalen Anfragen innerhalb der festgelegten Bürodomäne durch das für den VoCon-Erkenner erstellte Sprachmodell abgedeckt werden. Für den I6-Erkenner gilt dies nur eingeschränkt, da auch nur ein verkleinertes Modell eingesetzt wurde.

Ein weiteres Problem ergab sich bei der Wahl der festen Zeitvorgabe für das Ende einer Wortkette (vergleiche TimeOut in 5.1.1). Eine genauere Betrachtung ergab gute Ergebnisse bei Werten zwischen einer halben und dreiviertel Sekunde. Mit einer Schranke von 0,65 Sekunden wurden bei exemplarischen Tests die besten Ergebnisse erzielt.

Allgemein sind die ausgegebenen Wortketten auf den verwendeten Sprachmodellen von ausreichender Qualität. In Zukunft lassen sie sich sicherlich noch verbessern. Die Antwortzeiten der Erkenner nach Abschluß der verbalen Äußerung sind in der verwendeten Modellierung so gering, daß sie in bezug auf die Reaktivität des Systems nicht weiter betrachtet werden müssen. Bei größeren Modellen müssen aber die spezifischen Grenzen der Spracherkenner beachtet werden (siehe 5.1).


next up previous contents
Nächste Seite: Der semantische Parser Aufwärts: Die Einzelkomponenten Vorherige Seite: Die Einzelkomponenten   Inhalt

2001-01-04