Next: ディジタル蝸牛モデルとHMMを用いた音声認識
Up: HMMによる音声認識
Previous: HMMモデル
HMMが現在音声認識の分野で主流となっている最大の理由は以下の2点にあると考える。
- スペクトル時系列の統計的変動をモデルのパラメータに反映させられる
図3の様に、時間遷移が確率モデルの状態の遷移によって表され、
その遷移は確率によって表されているので、
通常の範囲の時間変動を吸収することができる。
また、周波数のパラメータは、出力シンボルによって表され、
そのシンボルの出現は出力確率という確率値で表されるために、
ある程度の周波数方向の変動も吸収できる。
- 音素単位での認識を基本とできるため、テキスト入力によって任意の単語を登録できるように移行することが比較的容易。
確率モデルでは図4の様に2つのモデルを結合してもそのモデル間の結合も確率で表せるために、
滑らかに結合した新たなモデルを得ることができる。
ゆえに、実用性の高い音素単位の認識ができる。
図 4: 音素モデルを利用した単語認識
一方で統計的計算をベースとするため、
- モデルのパラメータを決定させるための学習処理が複雑で計算量が多い
- 不特定話者で音素単位の認識を行なうためには、学習に音素のバランスのとれた大量の音声を必要とする
という欠点も持っている。
Copyright (C) 1997 by Sato Publications.