ＨＭＭによる音声認識の利点と欠点

Next: ディジタル蝸牛モデルとＨＭＭを用いた音声認識 Up: ＨＭＭによる音声認識 Previous: ＨＭＭモデル

ＨＭＭが現在音声認識の分野で主流となっている最大の理由は以下の２点にあると考える。

スペクトル時系列の統計的変動をモデルのパラメータに反映させられる
図3の様に、時間遷移が確率モデルの状態の遷移によって表され、その遷移は確率によって表されているので、通常の範囲の時間変動を吸収することができる。また、周波数のパラメータは、出力シンボルによって表され、そのシンボルの出現は出力確率という確率値で表されるために、ある程度の周波数方向の変動も吸収できる。
音素単位での認識を基本とできるため、テキスト入力によって任意の単語を登録できるように移行することが比較的容易。
確率モデルでは図4の様に２つのモデルを結合してもそのモデル間の結合も確率で表せるために、滑らかに結合した新たなモデルを得ることができる。ゆえに、実用性の高い音素単位の認識ができる。

図 4: 音素モデルを利用した単語認識

一方で統計的計算をベースとするため、

という欠点も持っている。