- 著者
-
福増 康佑
松浦 愛美
江口 浩二
- 雑誌
- 研究報告音声言語情報処理(SLP)
- 巻号頁・発行日
- vol.2011-SLP-86, no.4, pp.1-7, 2011-05-09
トピックモデルは大規模なテキストデータコレクションの解析に広く使用されているアプローチである.最近,Wikipediaを典型とする並列または比較可能な多言語データにおいて潜在トピックを発見する多言語トピックモデルが研究されている.また,元々は内部構造を持つ文書を対象として開発されたトピックモデルのうち,多言語の文書にも適用可能なものがある.しかしながら,現在まで多言語トピックモデルの比較評価を行った報告は我々の知る限りない.我々は多言語文書データに適用可能ないくつかのトピックモデルの性能を,テストセット対数尤度,トピック割り当てのヒストグラム,そして言語横断ストーリーリンク検出タスクに着目して比較評価した.実験により,これまで多言語に関連した研究に用いられてこなかったトピックモデルのいくつかが,従来研究で用いられた多言語トピックモデルより優れていることを示した.