著者
持橋 大地 菊井 玄一郎
雑誌
情報処理学会研究報告自然言語処理(NL)
巻号頁・発行日
vol.2006, no.36(2006-NL-172), pp.47-53, 2006-03-27

文書があるトピックの持つ確率分布から生成されたと仮定し その確率分布パラメータと文書のトピックへの帰属確率を求めるモデルに ナイーブベイズ法を Polya 分布を用いてベイズ的に精密にとらえ直した混合ディリクレモデル(DM)があるが この方法はトピック数を事前に与える必要があるという欠点があった.これに対し 本論文では可算無限個の混合比にディリクレ過程事前分布を与えることにより データの複雑さに合わせて混合数を自動推定するディリクレ過程混合モデルによる方法を検討する. モデル選択により混合数を決定する方法と異なり この方法は混合数の事後分布をパラメータと同時に推定し 期待値を取ることで予測を行うことができる. 実験の結果 必要な混合数の上限を推測することができ 特に小規模データに対しては性能がさらに上昇することがわかった.

言及状況

はてなブックマーク (1 users, 1 posts)

[statistical modeling][natural language processing]

収集済み URL リスト