著者
西光 雅弘 秋田 祐哉 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.69, pp.25-30, 2005-07-15

本稿では落語を対象に劇場内においてリアルタイムで字幕を付与する方法を検討する.落語は演目ごとに基本的なシナリオ(台本)が決まっており,同一演者・演目の音声データとその書き起こしの収集が可能であることから,これを用いて当該演目専用の音響モデルと言語モデルを構築する.特に,台本からの逸脱への頑健性を保持しながら,言語的制約を強力に反映させるために,言語モデルの単位として文節を採用する.実際の落語3演目を用いて認識実験を行ったところ,3演目平均で90%に近い単語認識精度を得た.Automatic real-time captioning of Rakugo using large vocabulary continuous speech recognition is addressed. Rakugo is a Japanese traditional monologue show of story telling performed by a professional Rakugo-ka. Rakugo-ka follows a script, but does not read out it like drama. For automatic captioning, we construct a dedicated language model from the script and an adapted acoustic model. In addition, we adopt the phrase (bunsetsu) unit for language modeling. At this moment, we achieved word accuracy close to 90%.
著者
根本 雄介 秋田 祐哉 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.73, pp.63-68, 2006-07-08
被引用文献数
6

広範な話題からなる会議音声を話題単位に自動分割し,得られた話題ごとに単語辞書と言語モデルの適応を行う手法を提案する.音声認識結果に対してPLSA(Probabilistic Latent Semantic Analysis)を適用して,話題を表す特徴ベクトルに変換し,その類似度に基づいて話題分割を行う.そして,話題ごとに類似したテキストを収集して,単語辞書を更新するとともにN-gram 言語モデルの適応を行う.衆議院予算委員会の音声で評価を行った結果,提案手法により単語辞書・言語モデルの適応を行うことで,ベースラインから未知語率を約25%,テストセットパープレキシティを約9%削減することができた.We address a vocabulary and language model adaptation method based on topic segmentation of meetings that include various topics. The ASR result is segmented based on the similarity among the feature vectors that were extracted with PLSA (Probabilistic Latent Semantic Analysis). The relevant texts (newspaper articles) for each topic segment are retrieved. The vocabulary and N-gram language model are updated with this retrieved texts. Experimental evaluation on a meeting of the Lower House Budget Committee showed that the proposed model adaptation based on topic segmentation reduced the test-set OOV rate and perplexity.
著者
勝丸徳浩 秋田 祐哉 森 信介 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.68, pp.25-30, 2008-07-11
被引用文献数
5

我々は,大学の講義におけるノートテイク支援を目標とした音声認識システムの研究開発を行っている.本研究では,専門性の高い講義に対して,言語モデルを効率的に適応する方法を検討する.大学の講義では,同一の講師が同一科目を一定期間担当することが通例であるので,以前の講義のデータを活用することを考える.ノートテイクが音声認識結果を評価・選別する応用場面を想定して,認識結果を教師ありで言語モデル適応に用いる方法と,音声認識結果の信頼度に基づいて教師なしで適応する方法を検討する.さらに,講義スライドを用いて, PLSA や Web テキスト収集に基づいて適応する手法との統合も行い,効果を確認した.We are developing an automatic speech recognition (ASR) system to assist note-taking in the classroom. In this work, we focus on an efficient method to adapt the language model (LM) for ASR to university lectures, in which a number of technical terms are used. We assume that one lecturer teaches a specific course subject through a certain period (a semester), and exploit the data of the lectures previously given by the same lecturer. Specifically, we propose an LM adaptation scheme supervised by the note-takers, who verify the ASR results and filter the well-recognized hypotheses. We also investigate an unsupervised adaptation method based on the confidence score of ASR. The methods are combined with other LM adaptation methods based on PLSA and Web text collection using the lecture slides.
著者
秋田 祐哉 三村 正人 河原 達也
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.9, pp.1736-1744, 2010-09-01

我々は国会審議の会議録作成支援を想定した音声認識システムの研究開発に取り組んでいる.会議録では原則として発話をすべて書き起こして記録することから,音声認識を活用する際には高い認識精度が求められる.このため,本研究では衆議院の審議音声からなるコーパスの整備を進めるとともに,これを用いた高精度の音響モデル・言語モデル・発音辞書の検討を行ってきた.音響モデルについては,種々の正規化手法に加えて最小音素誤り(MPE)学習を導入した.また言語モデルと発音辞書に関しては,話し言葉音声向けのモデルを生成するために発話スタイルの統計的変換手法を適用し,4-gram統計言語モデルと発音の変異形を含む辞書を構築した.これらのモデルに基づく音声認識システムについて実際の審議音声における評価を行ったところ,それぞれの手法が有効に機能していることが確認され,最終的には86%の文字正解精度が得られた.
著者
西村 竜一 秋田 祐哉 須藤 克仁 大庭 隆伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.444, pp.61-66, 2006-12-15

本稿では,2006年9月アメリカ合衆国ピッツバーグにおいて開催された国際会議Interspeech2006-ICSLPにおける研究動向を報告する.サーベイ二部構成の後編にあたる本編では,音声認識システム,言語モデル,言語処理関連,音声対話,音声検索,要約,翻訳等のトピックを中心に報告する.
著者
西村 竜一 秋田 祐哉 須藤 克仁 大庭 隆伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.106, no.442, pp.61-66, 2006-12-15

本稿では,2006年9月アメリカ合衆国ピッツバーグにおいて開催された国際会議Interspeech2006-ICSLPにおける研究動向を報告する.サーベイ二部構成の後編にあたる本編では,音声認識システム,言語モデル,言語処理関連,音声対話,音声検索,要約,翻訳等のトピックを中心に報告する.