学習の前には、まずHMMモデルの基本構造を決定しなければならない。 ここで決定するべき事項は、状態数、出力シンボルの表現方法、状態遷移の有無等である。
まず、HMMモデルの構成単位であるが、 不特定話者大語彙音声認識には音素単位でHMMを用いる手法が有効である[3]。 そこで本研究においてもHMMを音素単位で作成することとした。
音素単位で認識をする場合、1音素を1状態とすることもできるが、 定常的な部分とその前後の過渡的な部分、それに初期状態と最終状態の1音素あたり5状態程度で構成されたHMMモデルを作成する。 また出力シンボルは離散値として表現した方が計算量の軽減は図れるが、 より多くの学習データがないと完全な学習が出来ないことから、 連続したベクトルとし、その確率は正規分布として表すものとする。
以上のことから、HMMモデルは音素毎に図5の様なものを作成することとした。