- 著者
-
大島 裕明
小山 聡
田中 克己
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌データベース(TOD) (ISSN:18827799)
- 巻号頁・発行日
- vol.47, no.19, pp.98-112, 2006-12-15
- 被引用文献数
-
15
本研究では,ユーザが与えた1語のクエリに対して,Web検索エンジンが持つ情報のみから同位語とそのコンテキストを発見する手法について提案する.同位語とは,共通の上位語を持つような語のことである.従来研究として,同位語や,上位語,下位語などを求めるような研究は数多くあるが,それらはWeb上の文書を利用するものも含めて,巨大なコーパスを解析して大量の結果を求めるというものであった.我々の提案する手法では,Web文書のタイトルやスニペットといったWeb検索エンジンが持つ情報のみを,少ない回数のWeb検索によって取得し,それらを解析して同位語を発見する.提案手法では,ある語に対する同位語は並列助詞「や」で接続されることを利用してWeb検索エンジンに対するクエリを作成して,その検索結果のみから同位語を得る.そこでは何の事前準備も必要なく,また,あらゆる分野の語に対して同位語を発見することができる.さらに,発見された同位語とクエリの語の背後にあるコンテキストも同時に取得する.このような同位語発見は,Web検索におけるクエリ拡張や想起支援や,何かを調べるにあたって他のものと比較したいときの比較対象の発見など,幅広い分野で利用することができると考えられる.We propose a method of using only a Web search engine index to discover coordinate terms, i.e., terms that have the same hypernym. Several research methods acquire coordinate terms, but they require huge corpora or many Web pages. Our proposed method uses only the information in a Web search engine index such as titles and snippets of Web pages. These are obtained by a few Web searches, and then they are parsed to discover coordinate terms. We focus attention on coordinate terms that are connected by the coordinating particle "ya," and use those to make queries for a Web search engine. Our method does not require any preprocessing, and can find coordinate terms for terms in any field. At the same time, we find the background context between a query term and each discovered coordinate term. Such a service for discovering coordinate terms can be used in any field for such purposes as query expansion, word remembrance support system, or finding comparable objects.