著者
長友 健太郎 西村 竜一 小松 久美子 黒田 由香 李晃伸 猿渡 洋 鹿野 清宏
出版者
電子情報通信学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.9, pp.2884-2893, 2002-09-15
参考文献数
15
被引用文献数
23

高精度な言語モデルの融合手法として,相補的バックオフアルゴリズムに基づく融合アルゴリズムを提案するとともに,それを用いた言語モデルの融合ツールを構築した.N-gram言語モデルは,学習元のコーパスの話題や知識,語調や発話様式などの特徴を反映する.そのため,タスクごとの特徴を反映した複数の言語モデルを融合することで,より多様な入力に対処できるモデルを構築できる.この言語モデルの融合において,既存の融合手法では,モデルの持つ特性が損なわれるためタスクに対する特徴がぼやけてしまう.また,従来手法である学習元コーパスの単純な結合および再学習による融合を行うためには,学習元のコーパス自体が必要になる.これに対して,他方のモデルには現れない未観測N-gramの生起確率を他方のモデルから相互に推定する高精度な相補的バックオフアルゴリズムを提案する.さらに本手法を用いて,学習元コーパスが不要で利便性の高い言語モデル融合ツールを構築した.実際に医療相談,グルメ・レシピ検索および新聞記事の各タスクの言語モデルを融合し,それらを評価した結果,各モデルの特性をなるべく保存しながら,コーパス結合モデルと比較しても精度が劣化しないモデルを得ることができた.A new complemental back-off algorithm for merging two N-gram languagemodels is proposed. By merging several topic-dependent orstyle-dependent models, we can construct a general model that coverswider range of topics easily. However, a conventional method thatsimply concatenates the training corpora or interpolating eachprobabilities often levels off the task-dependent characteristics in each languagemodels, and weaken the linguistic constraint in total. We propose anew back-off scheme that assigns the unseen N-gram probabilitiesaccording to the probabilities of the another model. It can assignmore reliable probabilities to the unseen N-grams, and no originalcorpora is needed for the merging. We implemented a command tool thatrealizes this method, and evaluated it on three recognition tasks(medical consulting, food recipe query and newspaper article). The results reveal that our merged model can keep the same accuracy of each original one.