著者
三村 正人 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.30, no.1, pp.88-124, 2023 (Released:2023-03-15)
参考文献数
55

従来の音声認識システムは,入力音声に現れるすべての単語を忠実に再現するように設計されているため,認識精度が高いときでも,人間にとって読みやすい文を出力するとは限らない.これに対して,本研究では,フィラーや言い誤りの削除,句読点や脱落した助詞の挿入,また口語的な表現の修正など,適宜必要な編集を行いながら,音声から直接可読性の高い書き言葉スタイルの文を出力する新しい音声認識のアプローチについて述べる.我々はこのアプローチを単一のニューラルネットワークを用いた音声から書き言葉への end-to-end 変換として定式化する.また,音声に忠実な書き起こしを疑似的に復元し,end-to-end モデルの学習を補助する手法と,句読点位置を手がかりとした新しい音声区分化手法も併せて提案する.700 時間の衆議院審議音声を用いた評価実験により,提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に書き言葉を生成できることを示す.さらに,国会会議録作成時に編集者が行う修正作業を分類・整理し,これらについて提案システムの達成度と誤り傾向の分析を行う.
著者
松浦 孝平 三村 正人 河原 達也
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.28, no.3, pp.824-846, 2021 (Released:2021-09-15)
参考文献数
49

本稿では,アイヌ民話(ウウェペケㇾ)の音声認識に関する我々の取り組みについて述べる.まず,2 つの博物館から提供されたアイヌ語アーカイブのデータを元に,沙流方言を対象としたアイヌ語音声コーパスを構築した.次に,このコーパスを用いて注意機構モデルに基づく音声認識システムを構成し,音素・音節・ワードピース・単語の 4 つの認識単位について検討した.その結果,音節単位での音声認識精度が最も高くなることがわかり,話者クローズド条件と話者オープン条件のそれぞれについて,音素認識精度で 93.7% と 86.2%,単語認識精度で 78.3% と 61.4% を実現した.音声認識精度が話者オープン条件において大幅に低下する問題に対して,CycleGAN を用いた教師なし話者適応を提案した.これは,学習データ内の話者の音声から認識対象話者の音声への写像を CycleGAN に学習させ,学習データ内の音声を全て認識対象話者風の音声に変換するものである.本手法によって最大で相対 60.6% の音素誤り率の改善を得た.さらに,日本語とアイヌ語が混合した音声における言語識別についても検討を行い,音素認識と単語認識を用いた構成で一定の識別性能を達成できることを示した.
著者
河原 達也 住吉 貴志 李晃伸 武田 一哉 三村正人 伊藤彰則 伊藤 克亘 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.100, pp.37-42, 2001-10-19
参考文献数
20
被引用文献数
24

連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.
著者
秋田 祐哉 三村 正人 河原 達也
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.9, pp.1736-1744, 2010-09-01

我々は国会審議の会議録作成支援を想定した音声認識システムの研究開発に取り組んでいる.会議録では原則として発話をすべて書き起こして記録することから,音声認識を活用する際には高い認識精度が求められる.このため,本研究では衆議院の審議音声からなるコーパスの整備を進めるとともに,これを用いた高精度の音響モデル・言語モデル・発音辞書の検討を行ってきた.音響モデルについては,種々の正規化手法に加えて最小音素誤り(MPE)学習を導入した.また言語モデルと発音辞書に関しては,話し言葉音声向けのモデルを生成するために発話スタイルの統計的変換手法を適用し,4-gram統計言語モデルと発音の変異形を含む辞書を構築した.これらのモデルに基づく音声認識システムについて実際の審議音声における評価を行ったところ,それぞれの手法が有効に機能していることが確認され,最終的には86%の文字正解精度が得られた.