著者
貞光 九月 三品 拓也 山本 幹雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.9, pp.1771-1779, 2005-09-01
被引用文献数
6

混合ディリクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布), 生成文書モデルを提案し, 統計的言語モデルへの応用という面で高い性能をもつことを示す. 本論文では, 混合ディリクレ分布のパラメータ推定法及び適応時に必要な事後分布の期待値推定法をいくつか述べた後に, 二つの代表的な従来の文書モデルと比較する. 一つ目の従来モデルは, 統計的言語モデルにトピックを取り込むときによく使われるMixture of Unigramsである. 二つ目は代表的な生成文書モデルであるLDA(Latent Dirichlet Allocation)である. 新聞記事を用いた文書確率及び動的に適応するngramモデルを用いた実験で, 提案モデルは従来の二つのモデルと比べて低い混合数で低いパープレキシティを達成できることを示す.

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト