著者
福田 隆 立花 隆輝 ウィレット ダニエル チャン プミン
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J98-D, no.8, pp.1162-1170, 2015-08-01

音声の多様性を高精度にモデル化する方法は,音声認識の分野で長らく重要課題の一つに位置づけられてきた.近年では,大規模コーパスの整備に伴い,音響的に類似したサブセットを用いて個々にユニークな特性をもつ音響モデル集合を作成し,システム統合を介して更なる高精度化を図る手法が増えている.本論文では,信号対雑音比(SNR:Signal to Noise Ratio)や話速といった音声に内在する隠れ属性を利用して大規模データを分割し,システム統合法やモデル選択法のための効果的な音響モデル集合を構築する方法を提案する.提案法では,各発話を事後確率に基づく単一ベクトルで表現した後,コサイン類似度に由来する目的関数を用いて音声データクラスタの独立性を評価する.その後,生成されたデータクラスタごとに音響モデルを構築し,n-best ROVER(Recognizer Output Voting Error Reduction)によるシステム統合を行う.提案手法は音声検索タスクに特化した大語彙連続音声認識で,単一モデルの音声認識システムと比較して相対的に4%の性能改善を達成した.