- 著者
-
伊藤 彰則
好田 正紀
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会総合大会講演論文集
- 巻号頁・発行日
- vol.1996, no.1, pp.345-346, 1996-03-11
現在我々は文節構造をベースとした対話音声認識を目指して研究を進めている.その一環として,これまで人間同士の対話から文節構造モデルを構築するという研究を行ってきた.しかし,単純な有限オートマトンによる文法では認識に用いる際の制約能力が不十分であることから,N-gramなどの確率モデルの利用を検討している.N-gramによる確率モデルを日本語に適用する際に問題になるのは,何をモデルの単位とするかである.英語の場合には学習用のテキストが単語ごとにわかち書きされているので単語単位のN-gramが容易に構成できるが,日本語の場合には事前に形態素解析が必要である.しかし,従来の形態素解析システムを用いて会話文のような文章を解析するのは難しく,正確な解析は望めない.文字などの単位を用いた確率モデルを使うこともできるが,N-gramの単位が短いため,制約が弱い.そこで本稿では,次のような手法によって自動的にN-gramを生成する方法について検討する.1.「単語単位」と「文字単位」の中間的な単位として,学習テキストから自動的に抽出できる単位を用いて確率モデルを構成する.2.学習テキストの文字列を何らかの基準でクラスに分け,そのクラスと文字のN-gramを構成する.3.学習テキストに対して文節数最小基準による形態素解析を行い,その結果からN-gramを生成する.今回は,文節単位のデータを用いてN-gramを構成し,マルコフモデルによる文節モデルを構築している.