著者
福増 康佑 松浦 愛美 江口 浩二
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.4, pp.1-7, 2011-05-09

トピックモデルは大規模なテキストデータコレクションの解析に広く使用されているアプローチである.最近,Wikipediaを典型とする並列または比較可能な多言語データにおいて潜在トピックを発見する多言語トピックモデルが研究されている.また,元々は内部構造を持つ文書を対象として開発されたトピックモデルのうち,多言語の文書にも適用可能なものがある.しかしながら,現在まで多言語トピックモデルの比較評価を行った報告は我々の知る限りない.我々は多言語文書データに適用可能ないくつかのトピックモデルの性能を,テストセット対数尤度,トピック割り当てのヒストグラム,そして言語横断ストーリーリンク検出タスクに着目して比較評価した.実験により,これまで多言語に関連した研究に用いられてこなかったトピックモデルのいくつかが,従来研究で用いられた多言語トピックモデルより優れていることを示した.Topic modeling is a widely-used approach to analyze large text collections. Recently a few number of multilingual topic models have been explored to discover latent topics among parallel or comparable documents, such as Wikipedia. Moreover, there are some other topic models that were originally proposed for documents with structure and are also applicable for multilingual documents. However, no comparative studies have been reported for the purpose of multilingual topic modeling, to our knowledge. We compared the performance of various topic models that can be applied to multi-language documents in terms of test-set log-likelihood, histograms of topic assignments, and also in the task of cross-lingual story link detection. We demonstrated through the experiments that several topic models that have not ever used for multilingual context work better than the other multilingual topic models that were used in prior work.
著者
福増 康佑 松浦 愛美 江口 浩二
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011-SLP-86, no.4, pp.1-7, 2011-05-09

トピックモデルは大規模なテキストデータコレクションの解析に広く使用されているアプローチである.最近,Wikipediaを典型とする並列または比較可能な多言語データにおいて潜在トピックを発見する多言語トピックモデルが研究されている.また,元々は内部構造を持つ文書を対象として開発されたトピックモデルのうち,多言語の文書にも適用可能なものがある.しかしながら,現在まで多言語トピックモデルの比較評価を行った報告は我々の知る限りない.我々は多言語文書データに適用可能ないくつかのトピックモデルの性能を,テストセット対数尤度,トピック割り当てのヒストグラム,そして言語横断ストーリーリンク検出タスクに着目して比較評価した.実験により,これまで多言語に関連した研究に用いられてこなかったトピックモデルのいくつかが,従来研究で用いられた多言語トピックモデルより優れていることを示した.