- 著者
-
望月 源
岩山 真
奥村 学
- 出版者
- 一般社団法人 言語処理学会
- 雑誌
- 自然言語処理 (ISSN:13407619)
- 巻号頁・発行日
- vol.6, no.3, pp.101-126, 1999
- 被引用文献数
-
7
計算機上の文書データの増大に伴い, 膨大なデータの中からユーザの求める文書を効率よく索き出す文書検索の重要性が高まっている. 伝統的な検索手法では, 文書全体を1つのまとまりとして考え検索要求との類似度を計算する. しかし, 実際の文書, 特に長い文書では様々な話題が存在し, 文書中の各部分によって扱われる話題が異なる場合も多く見られる. そのため, 最近の文書検索では, ユーザの入力した検索要求と関連の高い文書の一部分を取り出して類似度を計算するパッセージレベルの検索が注目されている. パッセージ検索におけるパッセージとは, 文書中で検索要求の内容と強く関連する内容を持つ連続した一部分のことを言う. パッセージ検索では, このパッセージをどのように決定するかが問題となる. 良いパッセージを決定するためには, パッセージ自体が意味的なまとまりを形成し, パッセージの位置やサイズが検索要求や文書に応じて柔軟に設定される必要があると考えられる. 本稿では, 文書中の文脈情報である語彙的連鎖を利用し, 検索要求と文書の適切な類似度を計算できるパッセージ決定手法について述べる. また, このパッセージを使用し, 検索精度を向上させる検索手法について述べる.