著者
熊谷 建一 中村 哲 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.522, pp.67-72, 2000-12-14
被引用文献数
5

近年, 音声認識の性能は大きく改善されたが, さらに, 音声のSNRが低い雑音環境での高い音声認識性能が求められている.そのような環境に適した音声認識システムとして, 音声情報と唇周辺の動画像を用いたバイモーダル音声認識が注目されている.このようなシステムを構築するためには, 音声情報と画像情報の統合が重要な問題となる.統合においては, (1)音声を発話する前に発声の準備のために唇が動き, 発話が終わった後に遅れて唇が閉じるといったような, 音声と唇周辺の動きの非同期性, (2)周辺環境に応じたシステムの適応化, といった問題がある.本稿では, まず(1)の問題に対し, 音声と唇周辺の動きの非同期性を考慮するHMM合成に基づいた統合を行う.次に(2)の問題に対しては, GPDアルゴリズムを用い, 少数の環境適応用のデータ(以下適応データ)からストリーム重みを推定することを検討する.音響的な雑音がある場合について, 単語認識実験を行った結果, 認識性能が改善されることが示された.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

こんな論文どうですか? バイモーダル音声認識のためのモデル合成に基づく統合法と適応化,2000 http://ci.nii.ac.jp/naid/110003297794 近年, 音声認識の性能は大きく改善されたが, さらに, 音声のSNRが低い雑音環境での高い音声認識性能が求め

収集済み URL リスト