- 著者
-
三村 正人
河原 達也
- 出版者
- 一般社団法人 言語処理学会
- 雑誌
- 自然言語処理 (ISSN:13407619)
- 巻号頁・発行日
- vol.30, no.1, pp.88-124, 2023 (Released:2023-03-15)
- 参考文献数
- 55
従来の音声認識システムは,入力音声に現れるすべての単語を忠実に再現するように設計されているため,認識精度が高いときでも,人間にとって読みやすい文を出力するとは限らない.これに対して,本研究では,フィラーや言い誤りの削除,句読点や脱落した助詞の挿入,また口語的な表現の修正など,適宜必要な編集を行いながら,音声から直接可読性の高い書き言葉スタイルの文を出力する新しい音声認識のアプローチについて述べる.我々はこのアプローチを単一のニューラルネットワークを用いた音声から書き言葉への end-to-end 変換として定式化する.また,音声に忠実な書き起こしを疑似的に復元し,end-to-end モデルの学習を補助する手法と,句読点位置を手がかりとした新しい音声区分化手法も併せて提案する.700 時間の衆議院審議音声を用いた評価実験により,提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に書き言葉を生成できることを示す.さらに,国会会議録作成時に編集者が行う修正作業を分類・整理し,これらについて提案システムの達成度と誤り傾向の分析を行う.