next up previous contents
Nächste Seite: Das linguistische Modell Aufwärts: Statistische Spracherkennung Vorherige Seite: Merkmalsextraktion   Inhalt


Das akustische Modell - Hidden-Markov-Modelle

Das akustische Modell beschreibt die Zusammenhänge zwischen den Merkmalsvektoren und den Wörtern des Vokabulars. Dies geschieht in der Regel in zwei Schritten. Zunächst werden die Wörter als Ketten von Grundeinheiten, zum Beispiel Phonemen, dargestellt. Phoneme sind die kleinsten bedeutungsunterscheidenden Lauteinheiten einer Sprache. In der Regel werden für die deutsche Sprache ca. 40 Einzelphoneme verwendet. Koartikulationseffekte können durch kontextabhängige Phonemmodelle besser berücksichtigt werden. Im zweiten Schritt wird dann die Verbindung zwischen Merkmalsvektoren und Phonemen durch Wahrscheinlichkeitsverteilungen beschrieben. Jedes Phonem wird wiederum durch ein Hidden-Markov-Modell (HMM) dargestellt. Dadurch werden die stark variierenden Sprechgeschwindigkeiten in die Berechnung einbezogen.

Ein HMM ist ein stochastischer endlicher Automat, der aus einer endlichen Menge von Zuständen mit je einer zugeordneten Wahrscheinlichkeitsverteilung (Emissionswahrscheinlichkeit), einem Startzustand, Ausgabesymbolen und Transitionen besteht. Jede Transition ist mit einer Übergangswahrscheinlichkeit und einem Ausgabesymbol verknüpft. Wenn eine bestimmte Transition gewählt wird, wird das zugeordnete Ausgabesymbol erzeugt. Die Besonderheit ist, daß die Ausgabe, also eine Folge von Ausgabesymbolen, nicht eindeutig durch die Transitionen bestimmt ist. Der Beobachter kann von außen nur die Ausgabe, aber nicht die Transitionen, die zu dieser Ausgabe geführt haben, beobachten. Dieses wird durch den Zusatz ''Hidden'' beschrieben.

Ein in der Spracherkennung häufig verwendetes Transitions-Modell ist das Bakis-Modell [47]. Dabei stehen die Übergänge Loop, Forward und Skip zur Verfügung. Üblicherweise werden für Phoneme sechs Zustände verwendet. Die Zustände sind linear geordnet, um den zeitlichen Ablauf zu beschreiben. Der direkte Übergang (Forward) von einem Zustand zu seinem direkten Nachbarn kann als ''normale'' Sprechgeschwindigkeit bezeichnet werden. Das Wiederholen (Loop) oder Überspringen (Skip) von Zuständen modelliert die Geschwindigkeitsvariationen des Sprachsignals. Die Zustände werden mit Emissionswahrscheinlichkeiten beschrieben und die Übergänge mit Transitionswahrscheinlichkeiten. Das Ergebnis eines Durchlaufs des Automaten entspricht dann dem Produkt aus Transitions- und Emissionswahrscheinlichkeiten. Die Parameter der Verteilungen müssen aus einem möglichst großen Beispielvorrat heraus geschätzt werden.



\resizebox* {10cm}{1.67cm}{\includegraphics{Bilder/HMM.eps}}

Abb. 2.4: HMM mit sechs Zuständen

Die Wahrscheinlichkeit, mit der die Beobachtungsvektoren ein Phonem beschreiben, wird durch die Optimierung des Produkts der Emissions- und Transitionswahrscheinlichkeiten ermittelt. Durch die Verwendung von kontextabhängigen Phonemmodellen kann die Erkennungsleistung signifikant gesteigert werden. Ein solches ist zum Beispiel das Triphon-Modell gegenüber dem kontextunabhängigen Monophon-Modell. Zur Verdeutlichung ein kleines Transkriptionsbeispiel (Phonemschreibweise) des Wortes ''Kaffee'':

Monophon: k a f e:

Triphon: \( _{\char93 }k_{a}\, _{k}a_{f}\, _{a}f_{e:}\, _{f} \)e:\( _{\char93 } \) (,wobei \( \char93  \) die Phonemgrenze darstellt)

Für die lautsprachliche Realisierung eines Wortes können verschiedene Aussprachevarianten existieren. Ein Beispiel dafür ist das Wort ''Morgen''. Die Schreibweise basiert auf der SAMPA2.1-Notation:

  1. m O R g @ n - mit einem r wie in Reim
  2. m O 6 g @ n - mit einem stummen r (6) wie in besser
Als Grundeinheit der akustischen Ebene können nicht nur Phoneme, sondern auch Halbsilben, Silben oder Wörter verwendet werden. Die Modellierung ganzer Wörter ist aber gerade bei größeren Vokabularen nicht mehr handhabbar, da nicht alle im Lexikon spezifizierten Wörter im Trainingskorpus hinreichend oft gesehen werden.


next up previous contents
Nächste Seite: Das linguistische Modell Aufwärts: Statistische Spracherkennung Vorherige Seite: Merkmalsextraktion   Inhalt

2001-01-04