- 著者
-
能地 宏
持橋 大地
石塚 満
- 雑誌
- 研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.2012-NL-208, no.4, pp.1-11, 2012-08-26
文書の潜在トピックを捉え,トピックに応じた適切なnグラムを用いて予測を行うBayes的なnグラム言語モデルを提案する.文章には,単語の出現が文書のトピックに依存して決まる内容語と,文法的な関係のみで決まる機能語が存在する.我々はこれらの単語の出現が,文脈によっておおまかに決まることに着目し,適切な箇所でのみトピックを考慮した予測を行うモデルとして,2種類のモデルを提案し,比較を行う.トピック別のnグラムモデルを,通常のGibbsサンプリングで学習したのではすぐに局所解に陥ってしまうことを実験的に示し,それを回避するための新しいBlocked Gibbsサンプリングを提案する.提案法は,パープレキシティの比較において,Unigram Rescalingと同等以上の性能を示しながら,予測時間の大幅な改善を行うことを確認した.