Next: ＨＭＭによる音声認識 Up: 目次 Previous: はじめに

ディジタル蝸牛モデルによる音声認識

本研究においては、Katesの提案したディジタル蝸牛モデル[1]の中のフィルタバンク部を用いて周波数解析している。これは、図1の様なフィルタのカスケード接続によって実現され、その１段のフィルタの周波数特性は図2の様になる。

図 1: 蝸牛フィルタバンクのブロック図

図 2: 蝸牛フィルタの周波数特性(中心周波数1014Hz)

０から９の数字音声を用いた単語音声認識実験では、ディジタル蝸牛モデルで99.03%、２次バタワースフィルタバンクでは84.78%と蝸牛フィルタの効果が確認されている[2]。この実験では、単語単位でディジタル蝸牛モデルの出力を３次元パターンとし、それらのパターンマッチングを行なって音声認識していた。しかし、この方法には以下の様な問題点がある。

時間方向の変動に弱い
従来も３次元パターンの作成時に一定長に正規化することで全体の長さの変動は吸収してきた。しかし、これでは発声中の各音素間の時間の変動を吸収することはできない。
新規の単語登録が容易でなく大語彙に不向き
単語単位での認識を基本とするため、新規に単語を登録するためには新たなリファレンスパターンを必要とする。このためには再度音声を採取しなければならない。

これらは、実用化の上で大きな問題である。