next up previous contents
Nächste Seite: Merkmalsextraktion Aufwärts: Statistische Spracherkennung Vorherige Seite: Statistische Spracherkennung   Inhalt


Überblick

Es existieren mittlerweile viele verschiedene Spracherkennungssysteme. Diese basieren auf verschiedenen Verfahren, wie Neuronalen Netzen [5], oder auf Abstandsfunktionen. In den letzten Jahren hat sich der statistische Ansatz [18,27] auf dem Gebiet der Spracherkennung bewährt. Insbesondere in Verbindung mit Hidden-Markov-Modellen [43] wurden damit entscheidende Fortschritte erzielt.

Einige Ursachen und Aspekte für Probleme bei der Spracherkennung sind:

Grundlage der statistischen Spracherkennung ist die Bayessche Entscheidungsregel [11]:

\begin{eqnarray*}
R(x^{T}_{1})=\begin{array}{c}
argmax\\
w_{1}...w_{N}
\end{array} & \{P(w^{N}_{1}\vert x^{T}_{1})\} & .
\end{eqnarray*}



Hierbei beschreibt \( P \) eine Wahrscheinlichkeitsverteilung. Gesucht ist die wahrscheinlichste Wortkette \( w_{1}...w_{N}=w^{N}_{1} \) mit \( N \) Elementen zu einem gegebenen akustischen Signal. Sind die im folgenden beschriebenen Verteilungen vollständig bekannt, so besagt die Bayessche Entscheidungsregel, daß die Fehlerrate im statistischen Mittel genau dann minimal wird, wenn zu den gegebenen akustischen Vektoren \( x^{T}_{1} \) diejenige Wortfolge \( w^{N}_{1} \) gewählt wird, deren Posterior-Wahrscheinlichkeit maximal ist. Die akustische Vektorfolge \( x^{T}_{1} \) wird durch Signalanalyse aus dem akustischen Signal ermittelt.

Durch die Bayesschen Formeln läßt sich \( P(w^{N}_{1}\vert x^{T}_{1}) \) umformen zu:

\( P(w^{N}_{1}\vert x^{T}_{1})=\frac{P(x^{T}_{1}\vert w^{N}_{1})\cdot P(w^{N}_{1})}{P(x^{T}_{1})}. \)

Es kann nun gefolgert werden:

\begin{displaymath}
R(x^{T}_{1})=\begin{array}{c}
argmax\\
w_{1}...w_{N}
\end{array}\{P(x^{T}_{1}\vert w^{N}_{1})\cdot P(w^{N}_{1})\},\end{displaymath}

da die Wahrscheinlichkeit \( P(x^{T}_{1}) \) nicht von \( w^{N}_{1} \) abhängt.

\resizebox* {10cm}{9.7cm}{\includegraphics{Bilder/Abb_2_1.eps}}

Abb. 2.1: Grundaufbau eines statistischen Spracherkennungssystems

Durch diese Umformungen wird die Aufgabe in zwei unabhängige Wissensquellen aufgespalten - das akustische und das linguistische bzw. Sprach-Modell (vergleiche Abbildung 2.1):

Die in der Bayesschen Entscheidungsregel als bekannt angenommene Verteilung \( P \) ist in der Realität nicht bekannt. Daher muß sie geschätzt werden. Dies erfolgt im Rahmen eines Trainings. Die Wahl der Verteilung \( P \) ist für die Güte eines Erkenners von entscheidender Bedeutung. Je nach angenommenem Verteilungsmodell kann die Anzahl der freien Parameter von einigen wenigen über mehrere tausend bis hin zu hundertausenden sein. Das Training ist somit eine sehr komplexe Optimierungsaufgabe. Übliche Verfahren zur Bestimmung dieser Verteilungen sind die Maximum Likelihood-Methode [55,53] oder diskriminative Lernverfahren [35].

Neben dem statistischen Ansatz existieren noch andere Verfahren zur Spracherkennung. Dies sind zum Beispiel Neuronale Netzwerke oder das Nearest Neighbour-Verfahren, welches nur auf der geometrischen Klassifikation arbeitet. Diese seien hier aber nur der Vollständigkeit halber erwähnt [42,47].

Im folgenden wird der Erkennungsvorgang ausführlicher betrachtet.


next up previous contents
Nächste Seite: Merkmalsextraktion Aufwärts: Statistische Spracherkennung Vorherige Seite: Statistische Spracherkennung   Inhalt

2001-01-04