著者
松岡 達雄 大附 克年 森 岳至 古井 貞煕 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2125-2131, 1996-12-25
被引用文献数
39

近年,大語い連続音声認識の研究がアメリカ英語,イギリス英語,フランス語,ドイツ語,イタリア語などを対象に新聞記事を用いて盛んに行われている.しかしながら,日本語を対象とした,これに類する研究については報告がない.これは,主に,日本語が単語間にスペースなどのデリミタをおくことなく書かれるため,大語い連続音声認識において重要な役割を果たす単語N-gramなどの言語モデルの導入が容易でないためと考えられる.我々は,日本語新聞記事を対象として大語い連続音声認識の研究を進めている.単語N-gramを言語モデルとして用いるため,テキストを形態素解析することにより形態素(単語)にセグメンテーションした.形態素を単語と定義し,約5年分の新聞記事を用いて単語N-gram言語モデルを推定した.認識システムを評価するため,音声データベースを設計し,54名の話者の各100文ずつの音声データを収録した.この音声データベースの最初の10名の音声を用いて大語い連続音声認識の実験を行った.7 kの語いサイズに対して,no-grammar言語モデル,音素文脈独立音響モデルを用いた場合には単語誤り率が82.8%であった.単語bigram言語モデルと音素文脈依存音響モデルを用いることにより単語誤り率が20.0%に改善された.