- 著者
-
有木 康雄
滝口 哲也
- 出版者
- 神戸大学
- 雑誌
- 萌芽研究
- 巻号頁・発行日
- 2006
本研課題では、スポーツ実況放送の音声認識、及び状況理解を目的としている。状況理解により、スポーツ実況放送のシーンを構造的な単位に分割し、検索のためのメタ情報として利用可能とする。本研究課題では、確率的な枠組みに基づく音声と状況の同時認識、スポーツの進行に伴う状況変化のモデル化、状況に基づく音声認識モテルに特色がある。状況変化モデルは、発話された音声を認識し、発話内容に基づいてイベント推定、及び状況の遷移を行うモデルとなる。ここでは特に発話内容からのイベント推定が重要となる。本研究では、多様な発話を高精度に分類可能なAdaBoostを推定のためのモデルとして用いた。ただし、AdaBoostの出力は確率ではないことから、スコアをsigmoid関数により擬似確率化して用いた。また、AdaBoostを行う際の特徴量として、単語順序を考慮可能な手法であるDTA-Kernel PCAについても研究を行った。状況に基づく音声認識では、状況に応じて変化する言語的・音響的変化に対し、音声認識のモデルを適応する手法について研究を行った。本研究では、それぞれ状況に対応した複数の言語・音響モデルを構築しておき、認識時にモデルを切り替える手法を用いた。状況依存モデルの尤度、及び発話内容からの状況推定の尤度を統合し、最大化することにより、音声認識と状況推定を同時に行った。スポーツ実況放送では、興奮した音声を含む場合があり、興奮音声の認識は通堂の音響モデルでは困難である。研究課題では、さらなる認識性能向上のため、新しい音声認識特徴量、発話スタイルの変動に頑健な音響モデルについても研究を行った。