- 著者
-
伊藤 彰則
- 雑誌
- 研究報告音声言語情報処理(SLP) (ISSN:21888663)
- 巻号頁・発行日
- vol.2016-SLP-112, no.10, pp.1-6, 2016-07-21
音声認識の特徴量抽出では,まず入力音声に時間窓をかけて局所的な信号を切り出し,音声信号の局所的な周波数情報を取り出す.この時間窓の位置を少しずつずらしながら分析を行うことで,音声の持つ周波数成分の時間変化を捉えることができる.このとき時間窓をずらす時間間隔がフレームシフトであり,典型的には 5ms~10ms に設定される.本稿では,このフレームシフトを 2 つの点から再考する.一つ目の視点は 「フレームシフトは 10ms で十分なのか?」 という点である.フレームに基づく処理は,音声信号が短い時間で大きく変化しないことを前提としているが,破裂子音などではこの前提がそもそも成立していない.そこで,10ms ごとのフレームの先頭位置のずれによって,抽出される特徴量が大きく変化することを実験的に示す.また,偶然によるフレーム位置の変動に起因する特徴量変動に対応するため,フレーム位置をずらした学習サンプルを学習に用いる方法を提案する.二つ目の視点は,「フレーム位置のずれが学習によって吸収できるのであれば,フレームシフトはもっと長くてもよいのではないか?」 という点である.フレームシフトを実験的に 60ms 程度まで長くして実験を行ったところ,フレームシフト 40ms ではフレームシフト 10ms を越える認識性能が得られ,50ms でも 10ms と同程度の認識性能が得られた.これらの条件では 1 状態 HMM (すなわち GMM) が使われており,認識のための計算量の大幅な削減が期待できる.