- 著者
-
川前 徳章
山田 武士
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. AI, 人工知能と知識処理 (ISSN:09135685)
- 巻号頁・発行日
- vol.109, no.51, pp.19-24, 2009-05-15
本稿では文書間及びそれらの著者間各々の類似性を評価する為に,著者の興味と文書の内容の依存関係を反映した潜在変数モデルを提案する.提案モデルの特徴は,通常のトピックモデルを拡張し,文書間及び著者間各々に潜在変数を導入している点である.文書毎に導入される変数(文書クラス)は,文書のトピックを選択するための確率分布を持ち,類似した内容の文書間で共有されるものとする.同様に著者毎に導入される変数(著者クラス)は,文書クラス選択の確率分布を持ち,類似した興味を持つ著者間で共有されるものとする.それ故,文書生成を著者クラス,文書クラス及びトピックとその依存関係を用いてモデル化し,そのクラスを用いて著者間及び文書間の類似性を評価できる.論文著者データを用いた実験により,提案手法が著者クラス及び文書クラスを推定し,その結果,文書と著者の関係データを内容と興味の低次元の空間に射影できること,及びテキスト生成モデルとしての有効性を確認できた.