著者
松岡 達雄 ハッソン ロバート ダル ステファニー バーロウ マイケル 古井 貞煕
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2070-2077, 1996-12-25
参考文献数
24
被引用文献数
7

本論文では音声理解システムにおいて,音声認識結果である自然言語を,システムを駆動する意味言語に変換するための言語モデルを,コーパスから自動的に獲得する方法について述べる.提案法では,まず,自然言語/意味言語における単語を,出現する文脈の類似度を尺度とした統計的なクラスタリングによりグループ化する.次に,自然言語,意味言語をそれぞれネットワーク文法で表現し,自然言語の文法ネットワーク中の状態遷移と対応する意味言語の文法ネットワーク中の状態遷移間の共起確率を,自然言語と意味言語が1対となったコーパスを用いて推定する.この共起確率を翻訳言語モデルとして自然言語から意味言語への変換を行う.単語のクラスタリングによりネットワーク中の状態数が削減されているため,スパースデータからの推定の問題を回避し,頑健な翻訳言語モデルを推定することができる.米国ARPAの音声理解評価タスクである航空旅行情報システム(Air Travel Information System: ATIS)を対象として評価を行い,提案法の有効性を示す.
著者
松岡 達雄 大附 克年 森 岳至 古井 貞煕 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2125-2131, 1996-12-25
被引用文献数
39

近年,大語い連続音声認識の研究がアメリカ英語,イギリス英語,フランス語,ドイツ語,イタリア語などを対象に新聞記事を用いて盛んに行われている.しかしながら,日本語を対象とした,これに類する研究については報告がない.これは,主に,日本語が単語間にスペースなどのデリミタをおくことなく書かれるため,大語い連続音声認識において重要な役割を果たす単語N-gramなどの言語モデルの導入が容易でないためと考えられる.我々は,日本語新聞記事を対象として大語い連続音声認識の研究を進めている.単語N-gramを言語モデルとして用いるため,テキストを形態素解析することにより形態素(単語)にセグメンテーションした.形態素を単語と定義し,約5年分の新聞記事を用いて単語N-gram言語モデルを推定した.認識システムを評価するため,音声データベースを設計し,54名の話者の各100文ずつの音声データを収録した.この音声データベースの最初の10名の音声を用いて大語い連続音声認識の実験を行った.7 kの語いサイズに対して,no-grammar言語モデル,音素文脈独立音響モデルを用いた場合には単語誤り率が82.8%であった.単語bigram言語モデルと音素文脈依存音響モデルを用いることにより単語誤り率が20.0%に改善された.