Next: HMMによる音声認識
Up: 目次
Previous: はじめに
本研究においては、Katesの提案したディジタル蝸牛モデル[1]の中の
フィルタバンク部を用いて周波数解析している。これは、図1の様なフィルタの
カスケード接続によって実現され、
その1段のフィルタの周波数特性は図2の様になる。
図 1: 蝸牛フィルタバンクのブロック図
図 2: 蝸牛フィルタの周波数特性(中心周波数1014Hz)
0から9の数字音声を用いた単語音声認識実験では、ディジタル蝸牛モデルで99.03%、
2次バタワースフィルタバンクでは84.78%と蝸牛フィルタの効果が確認されている[2]。
この実験では、単語単位でディジタル蝸牛モデルの出力を3次元パターンとし、それらのパターンマッチングを行なって音声認識していた。
しかし、この方法には以下の様な問題点がある。
- 時間方向の変動に弱い
従来も
3次元パターンの作成時に一定長に正規化することで
全体の長さの変動は吸収してきた。
しかし、これでは発声中の各音素間の時間の変動を吸収することはできない。
- 新規の単語登録が容易でなく大語彙に不向き
単語単位での認識を基本とするため、
新規に単語を登録するためには新たなリファレンスパターンを必要とする。
このためには再度音声を採取しなければならない。
これらは、実用化の上で大きな問題である。
Copyright (C) 1997 by Sato Publications.