著者
中村 明 速水 悟 津田 裕亮 松本 忠博 池田 尚志
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.4, pp.1375-1389, 2009-04-15

単語間の大域的な依存関係をトピック(話題)としてモデル化する言語モデルの1つであるLDA(Latent Dirichlet Allocation)を複数個統合する方式によって,言語モデルを高精度化・安定化できることを示す.新聞記事コーパスを用いた実験の結果,提案方式では単一のLDAからなる同一規模のモデルと比較して,つねに推定精度が向上・安定化することを確認した.単一LDAでは潜在トピック数<i>C</i> = 100前後を境に性能が低下するのに対し,提案方式では過適応が抑制され,はるかに大きい総トピック数(= 各モデルの潜在トピック数の総和)まで性能が向上し続ける.また提案方式によるunigram確率を用いて<i>N</i>-gram確率(<i>N</i>&ge;2)を補間することにより,trigramのパープレキシティを従来方式より大幅に削減できる.さらに本論文では,提案方式を予測入力に基づくテキスト入力支援(predictive text entry)に応用することを想定し,テキスト入力支援に適した言語モデル評価指標i-PPを提案する.この指標はパープレキシティの拡張であり,任意文字数の読み入力時点における平均単語分岐数を表す.この指標を用いた評価の結果,提案手法では入力読み文字数<i>l</i> = 2の時点まで通常のパープレキシティと同程度にi-PPを削減でき,従来方式よりも高精度に予測候補を絞り込めることが確かめられた.