Das linguistische Modell

Nächste Seite: Die Suche Aufwärts: Statistische Spracherkennung Vorherige Seite: Das akustische Modell - Inhalt

Das linguistische Modell

Mit dem Sprachmodell läßt sich die a-priori-Wahrscheinlichkeit $P(w_{1}...w_{N})$ von Wortfolgen berechnen. Ein Satz wie ''Carl bring diesen Brief zum Postausgang'' soll wahrscheinlicher sein als ''Zum bring Postausgang diesen carl Brief''. Es gibt verschiedene Möglichkeiten Wortfolgen zu modellieren. Eine Möglichkeit ist die Darstellung als deterministischer endlicher Automat (DFA). Dabei muß jede mögliche Wortfolge im Automaten vorkommen, ansonsten kann sie nicht erkannt werden. Problematisch bei DFA's ist, daß in der Spontansprache auch Satzkonstrukte verwendet werden, die in ihren speziellen Formen nicht vorherzusehen sind. Ein anderer Ansatz sind die sogenannten $m$ -Gramm-Modelle. Diese basieren auf der Kettenregel der Wahrscheinlichkeitsrechnung (Dekompositionsregel). Dadurch kann die Gesamtwahrscheinlichkeit einer Wortfolge als Produkt von bedingten Wahrscheinlichkeiten dargestellt werden.

$\begin{eqnarray*} P(w^{N}_{1}) & = & \prod _{n=1}^{N}p(w_{n}\vert w_{n-1},...,w_... ... & \approx & \prod _{n=1}^{N}p(w_{n}\vert w_{n-1},...,w_{n-m+1}) \end{eqnarray*}$

Die Bedingung ist durch die Vorgänger in der Wortkette bestimmt. Bei einem $m$ -Gramm-Modell werden $m-1$ Vorgänger des aktuellen Wortes betrachtet, bei einem Trigram-Modell also zwei Vorgänger und bei einem Unigram-Modell nur das betrachtete Wort selbst. Diese Wahrscheinlichkeiten müssen anhand von Beispieltexten geschätzt werden. Trotz Einschränkung der betrachteten Vorgänger ist es im allgemeinen nicht möglich, alle $m$ -Gramme im Traininskorpus zu sehen. Bei einem Vokabular von 200 Wörtern sind dies bereits $200^{3}=8*10^{6}$ mögliche Trigram-Kombinationen. Alle nicht beobachteten Trigramme würden dann die Wahrscheinlichkeit Null erhalten und könnten nicht erkannt werden. Aus diesem Grunde müssen noch Verfahren in die Berechnung einbezogen werden, die die Erkennung solcher Trigramme ermöglichen. Diese Verfahren werden auch Glättungsverfahren genannt. Ein mögliches Glättungsverfahren bildet das Backing-Off-Verfahren. Ist ein $m$ -Gramm im Training nicht gesehen worden, so wird auf das $m-1$ -Gramm zurückgegriffen, um $P(w^{N}_{1})>0$ zu erreichen. Für Uni-, Bi- und Trigramme ergibt sich daraus:

Unigram

$\begin{displaymath} P(w^{N}_{1})=\prod ^{N}_{n=1}p(w_{n})\end{displaymath}$
Bigram

$\begin{displaymath} P(w^{N}_{1})=\prod ^{N}_{n=1}p(w_{n}\vert w_{n-1})\end{displaymath}$
Trigram

$\begin{displaymath} P(w^{N}_{1})=\prod ^{N}_{n=1}p(w_{n}\vert w_{n-2},w_{n-1})\end{displaymath}$

Die Güte eines Sprachmodells (LM) ist von entscheidender Bedeutung für die Qualität eines Spracherkenners. Um zwei unterschiedliche Modelle miteinander vergleichen zu können, gibt es unterschiedliche Möglichkeiten. Die beste Möglichkeit scheint immer noch der Einsatz in einem realen System zu sein. Allerdings ist dies sehr aufwendig und teuer. Deswegen wird häufig eine Abschätzung mit Hilfe der Perplexität angegeben.

Die Perplexität [4] geht von der Wahrscheinlichkeit aus, mit der eine bestimmte Wortkette $w^{N}_{1}$ durch das LM bewertet ist. Als Voraussetzung wird ein geschlossenes Vokabular angenommen. Um die Korpus-Perplexität zu erhalten, wird zunächst die Inverse der N-ten Wurzel der Wahrscheinlichkeiten der Wortfolgen gebildet:

$\begin{displaymath} PP:=[P(w^{N}_{1})]^{-1/N}.\end{displaymath}$

Wie oben gesagt, gilt:

$\begin{displaymath} P(w^{N}_{1})=\prod _{n=1}^{N}p(w_{n}\vert w_{n-1},...,w_{1}).\end{displaymath}$

Durch Einsetzen erhält man:

$\begin{displaymath} log\, PP\, =-\frac{1}{N}\sum _{n=1}^{N}log\, p(w_{n}\vert w_{n-1},...,w_{1}).\end{displaymath}$

Diese Gleichung beschreibt das inverse geometrische Mittel der Übergangswahrscheinlichkeiten über alle $N$ Wörter. Bis auf die Konstante $-\frac{1}{N}$ entspricht die Korpus-Perplexität der mittleren bedingten Wahrscheinlichkeit der Wörter. Ohne Sprachmodell entspricht die Perplexität der Vokabulargrösse, da nach jedem erkannten Wort jedes Element des Vokabulars, also auch wieder das gleiche, folgen könnte. Durch Minimierung der Korpus-Perplexität kann die Anzahl der möglichen Folgewörter minimiert werden. Die Perplexität kann also als die mittlere Anzahl von Wortübergängen während des Erkennungsvorgangs interpretiert werden.

Nächste Seite: Die Suche Aufwärts: Statistische Spracherkennung Vorherige Seite: Das akustische Modell - Inhalt

2001-01-04