Philips VoCon

Nächste Seite: Der gewählte Verarbeitungsansatz - Aufwärts: Die verwendeten Spracherkenner Vorherige Seite: I6-Erkenner Inhalt

Philips VoCon

Dieses von Philips zur Verfügung gestellte System wurde zuerst zur Steuerung von Mobiltelefonen eingesetzt. Mittlerweile wird es auch in den Bereichen der Autonavigationssysteme oder sprachsteuerbaren Küchengeräte verwendet. Ein großer Vorteil dieses Systems ist die Möglichkeit des Keyword Spotting. Der Erkenner ist in der Lage, einzelne Wörter im kontinuierlichen Signal zu extrahieren. Dadurch kann eine zufriedenstellende Erkennungsleistung erreicht werden, ohne ein vollständiges LM angegeben zu haben. Eine Möglichkeit wäre zum Beispiel das Weglassen von Artikeln und Höflichkeitsfloskeln. Bei dem folgenden Beispiel für eine Keyword-Grammatik bezeichnet $Q_{0}$ den Startzustand. Die gestrichelten Linien sollen weitere hier nicht betrachtete Übergänge andeuten.

$\resizebox* {10cm}{1.96cm}{\includegraphics{Bilder/LM_VoCon.eps}}$

Abb. 5.1: Auszug aus einem LM des Philips VoCon

Carl bringe bitte einen Kaffee zu Gerhard
Carl bringe einen Kaffee zu Gerhard
Carl bringe Kaffee zu Gerhard

Die Sätze eins bis drei werden durch den in Abbildung 5.1 dargestellten Ausschnitt eines Sprachmodells abgedeckt. Allerdings sei an dieser Stelle erwähnt, daß diese Funktion bei der Verwendung des vortrainierten sprecher-unabhängigen Phonemkorpus nur zu dürftigen Ergebnissen führt. Dies bedeutet, daß die erkannten Sätze Wortfehlerraten von über 50 Prozent enthalten. Mit einem speziell trainierten Modell sollten bessere Leistungen erzielt werden. Je mehr Wörter zwischen zwei definierten Transitionen liegen, desto höher ist das Fehlerpotential, also die Möglichkeit, einen falschen Übergang (zum Beispiel Brief statt Kaffee) zu wählen. Die Erkennungsfehler bei Satz 1 sind eher größer als bei Satz 3. Statt Carl Kaffee zu Gerhard könnte aufgrund der B-Laute auch Carl Brief zu Gerhard erkannt werden.

Die Modellierungen unter Beachtung des Keyword Spotting haben zwar zu verwendbaren Ergebnissen geführt, es wird aber trotzdem ein ''vollständiges'' Modell verwendet, da es für den I6-Erkenner sowieso erstellt werden muß. Dies kann aber im Gegensatz zu dem I6 Erkenner in minimierter Form angegeben werden. Dadurch kann die Anzahl der benötigten Zustände recht gering gehalten werden (siehe 6.2.1). Für die akustische Ebene stehen mehrere vortrainierte Phonemmodelle zur Auswahl. Dies sind verschiedene Monophonkorpora und ein Triphonkorpus. Die besten Ergebnisse liefert das Triphonmodell. Die Erstellung des akustischen bzw. linguistischen Modells kann sehr einfach über eine Auswahl von unterstützenden Programmen erzeugt und optimiert werden (siehe Anhang B und C).

Die Nachteile dieses Erkenners sind vor allem die Begrenzungen des Vokabulars auf ca. 250 Wörter und der Grammatik auf ca. 500 Zustände. Größere Modelle werden zwar verarbeitet, führen aber zu inakzeptablen Antwortzeiten des Systems. Ein Nachteil, der aufgrund des fehlenden Trainingsmaterials nicht zum Tragen kommt, ist das Fehlen der Möglichkeit, das LM als stochastischen Automaten bzw. $m$ -Gramm Modell angeben zu können.

Nächste Seite: Der gewählte Verarbeitungsansatz - Aufwärts: Die verwendeten Spracherkenner Vorherige Seite: I6-Erkenner Inhalt

2001-01-04