- 著者
-
山本 幹雄
貞光 九月
三品 拓也
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
- 巻号頁・発行日
- vol.2003, no.104, pp.29-34, 2003-10-17
- 参考文献数
- 10
- 被引用文献数
-
9
混合ディレクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布)、文脈/文書の確率モデルを検討する。本稿では、混合ディレクレ分布のパラメータおよび適応時に必要な事後分布の期待値推定方法をいくつか述べ、動的に適応する?textit{n}gram言語モデルを用いた実験で確率的LSAのベイズ的な発展モデルとの比較を示す。混合ディレクレ分布や混合Polya分布は他のベイズ的な文脈モデルに比べて単純なので、予測分布を閉じた式で導出可能である。これは、Latent Dirichlet Allocation (LDA)のような他のベイズ的なモデルがいずれも予測分布の推定に近似を必要とする点と比べて、大きな優位性といえる。実験では、混合ディレクレ分布を用いたモデルが低い混合数で比較モデルよりも低いパープレキシティを達成できることを示す。We investigate a generative context/text model using Dirichlet mixtures as a distribution for parameters of a multinominal distribution, whose compound distribution is Polya mixtures. In this paper, we describe some estimation methods for parameters of Dirichlet mixtures and a posterior distribution (adaptation), and show experiments to compare the proposed model with the other Bayesian variants of Probabilistic LSA in perplexity of adaptive \textit{n}gram language models. Since the Dirichlet and Polya mixtures are simpler than the other Baysian context models such as Latent Dirichlet Allocation (LDA), the posterior distribution can be derived as a closed form without approximations needed by LDA. In the experiments we show lower perplexity of Dirichlet mixtures than that of the other.