著者
吉田 崇裕 久野 遼平 大西 立顕
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2019-NL-241, no.6, pp.1-8, 2019-08-22

トピックモデルは自然言語処理を始めとして多くの分野で用いられる手法である.トピックモデルの基本形である Latent Dirichlet Allocation (LDA) の提唱後,様々な LDA の改良モデルが提案されてきた.例えば Correlated Topic Model (CTM) は LDA が文書中のトピック間の相関を十分に考慮できない点に注目したモデルであり,汎化性能が向上すると報告されている.Gaussian LDA は LDA が単語間の意味的な近さを十分に考慮できない点に注目したモデルであり,トピックの意味一貫性が向上すると報告されている.両者を組み合わせた Correlated Gaussian Topic Model (CGTM) と呼ばれるモデルは上記二つの欠点を同時に補うのみならず,単語の埋め込み空間上でトピックの相関構造を可視化することができ革新的である.しかし,文書内におけるトピックの関係性は,CGTM が対象とする単純な相関構造だけで表現できるものではない.実際日常生活においても,例えば 「経済」 - 「金融政策」 - 「出口戦略」 のように話題の階層性を意識し会話をすることは多々ある.そこで本稿では階層的トピックモデルとして最も単純な PAM (Pachinko Allocation Model) とGaussian LDA を組み合わせたモデルを提案することで,トピックの階層構造を単語埋め込みベクトル空間上で分析する一歩としたい.