著者
大河 雄一
出版者
東北大学
雑誌
若手研究(B)
巻号頁・発行日
2005

平成18年度は,本研究課題の最終年度に当たる。本年度においては,本研究の目的である授業・講義等の発話内容を用いたeラーニング教材作成システムに用いるための音声認識モデルおよび音声認識手法の検討を行った。従来より,本研究が対象とするような大学での講義などの音声は,非常に変化が激しい自然発話音声の一つであるため認識が困難であることが,他の研究などから指摘されていた。そこで本研究では前年度に得られていた知見などをもとに自然発話音声の音声認識精度の向上を図った。本年度検討した講義音声認識の手法は,音声に含まれる音素の持続時間が通常の長さとは極端に異なるものを認識誤りの可能性が高いものと見なし,これを抑制するものである。このために,発話様式の似た学術講演を対象とした大規模な音声コーパスCSJを用いて,事前に持続時間の知識を獲得し,認識対象の音声を音素持続時間の観点でスコア化し,認識結果の候補のリスコアリングにより持続時間の誤りを抑制した。この方法により,従来,持続時間の知識を用いる時,検討されていなかった発話速度や文内の位置などの言語的特徴の影響をモデルに取り込み高精度に持続時間の予測を可能とした。本提案法により,最大で4.7%の音素認識誤り削減率が得られた。これは,従来法により持続時間を考慮した場合に2.1%の改善しか得られないのと比べ,有意な改善であった。また,この成果は情報処理学会論文誌に投稿し,採録された。