著者
河原 達也 GOMEZ Randy GOMEZ R.B.
出版者
京都大学
雑誌
特別研究員奨励費
巻号頁・発行日
2010

音声は人間同士のコミュニケーションにおいて最も自然なメディアであり、計算機やロボットとのインタラクションにおいても音声対話は重要な役割を果たすと考えられる。しかしながら、実際の環境において、計算機やロボットから一定(数メートル)以上離れた状況で発話がなされると、残響等の影響が顕著となる。その結果、音声認識や発話の理解の性能が大きく低下し、円滑な対話も困難になる。従来この問題に対して、音声強調・残響抑圧の研究が行われてきたが、人間の聴感上の改善を主な目標としていたため、必ずしも音声認識やインタラクションの性能改善につながるとは限らないものであった。これに対して、音声認識やインタラクションの改善に直接的に貢献するように音声強調を行う方法について研究を行った。今年度は特に、複数の分解能からなるウエーブレット分析の手法を研究した。提案するウエーブレットパケット分解では、遅い残響成分と音声の成分を効果的に分離するように、各々の分解能を設定する。これにより、各々に適切なウエーブレット基底を用いることで、観測された残響のある信号から効果的なウイナーゲインを計算することができる。残響抑圧は、ウエーブレットパケットの係数をウイナーゲインでフィルタすることで行われる、大語彙連続音声認識(JNASタスク)の評価実験において、提案手法はウエーブレット分析に基づく従来法や他の残響抑圧手法と比べて、高い性能を示した。