著者
熊谷 建一 中村 哲 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.522, pp.67-72, 2000-12-14
被引用文献数
5

近年, 音声認識の性能は大きく改善されたが, さらに, 音声のSNRが低い雑音環境での高い音声認識性能が求められている.そのような環境に適した音声認識システムとして, 音声情報と唇周辺の動画像を用いたバイモーダル音声認識が注目されている.このようなシステムを構築するためには, 音声情報と画像情報の統合が重要な問題となる.統合においては, (1)音声を発話する前に発声の準備のために唇が動き, 発話が終わった後に遅れて唇が閉じるといったような, 音声と唇周辺の動きの非同期性, (2)周辺環境に応じたシステムの適応化, といった問題がある.本稿では, まず(1)の問題に対し, 音声と唇周辺の動きの非同期性を考慮するHMM合成に基づいた統合を行う.次に(2)の問題に対しては, GPDアルゴリズムを用い, 少数の環境適応用のデータ(以下適応データ)からストリーム重みを推定することを検討する.音響的な雑音がある場合について, 単語認識実験を行った結果, 認識性能が改善されることが示された.