著者
江口 浩二 塩崎 仁博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI)
巻号頁・発行日
vol.2008, no.56, pp.73-80, 2008-06-12

最近,確率的トピックモデルに基づく情報検索手法が提案され,言語モデルの枠組みにおいて潜在的ディリクレ配分法(LDA)またはその変形を用いた実験で良好な結果が報告されている.しかしながら,アノテーション付き文書を検索するタスクに対しては,LDA に基づく手法ではアノテーションによって特定された属性型を直接利用することができない.本稿では,アノテーション付き文書コレクションのための新たなアドホック検索手法を提案する.提案手法は多重多型トピックモデルに基づく.これは,Wikipedia におけるエンティティ,カテゴリラベル,その他の語を典型とする,複数種の単語型を直接扱うことができる.この多重多型トピックモデルをアドホック検索に適用する方法を新たに提案し,Wikipedia を用いたエンティティ検索に関する実験によって提案手法の有効性を示す.Very recently, topic model-based retrieval methods have produced good results using Latent Dirichlet Allocation (LDA) model or its variants in language modeling framework. However, for the task of retrieving annotated documents, LDA-based methods cannot directly make use of multiple attribute types that are specified by the annotations. In this paper, we explore new retrieval methods using a 'multitype topic model' that can directly handle multiple word types, such as annotated entities, category labels and other words that are typically used in Wikipedia. We investigate how to effectively apply the multitype topic model to retrieve documents from an annotated collection, and show the effectiveness of our methods through experiments on entity ranking using a Wikipedia collection.
著者
江口 浩二 塩崎 仁博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.56, pp.73-80, 2008-06-12

最近,確率的トピックモデルに基づく情報検索手法が提案され,言語モデルの枠組みにおいて潜在的ディリクレ配分法(LDA)またはその変形を用いた実験で良好な結果が報告されている.しかしながら,アノテーション付き文書を検索するタスクに対しては,LDA に基づく手法ではアノテーションによって特定された属性型を直接利用することができない.本稿では,アノテーション付き文書コレクションのための新たなアドホック検索手法を提案する.提案手法は多重多型トピックモデルに基づく.これは,Wikipedia におけるエンティティ,カテゴリラベル,その他の語を典型とする,複数種の単語型を直接扱うことができる.この多重多型トピックモデルをアドホック検索に適用する方法を新たに提案し,Wikipedia を用いたエンティティ検索に関する実験によって提案手法の有効性を示す.Very recently, topic model-based retrieval methods have produced good results using Latent Dirichlet Allocation (LDA) model or its variants in language modeling framework. However, for the task of retrieving annotated documents, LDA-based methods cannot directly make use of multiple attribute types that are specified by the annotations. In this paper, we explore new retrieval methods using a 'multitype topic model' that can directly handle multiple word types, such as annotated entities, category labels and other words that are typically used in Wikipedia. We investigate how to effectively apply the multitype topic model to retrieve documents from an annotated collection, and show the effectiveness of our methods through experiments on entity ranking using a Wikipedia collection.