- 著者
-
平林 幹雄
江渡 浩一郎
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
- 巻号頁・発行日
- vol.106, no.149, pp.167-172, 2006-07-06
全文検索システムの転置インデックスを実現するにあたり,テキストデータからN-gram法によって切り出したトークンを検索キーにする手法が広く用いられている.この手法には,言語中立性や再現率の完全性という利点がある反面,検索対象の文書群から抽出するトークンの数が膨大になるために,転置インデックスのサイズが肥大化して空間効率が悪化するという欠点がある.検索の際にクエリから切り出した各トークンが対象文書のテキスト内でも連接しているかどうかを判断するためには,転置インデックス内にトークンの文書内での出現位置を記録しておくことが必要となるが,この位置情報が転置インデックスの肥大化の一因となっている.本稿では,N-gram法の欠点である転置インデックスの空間効率を改善する手法として,N.M-gram法を提案する.N.M-gram法では,各トークンの文書内での位置情報のかわりに後続のトークンのハッシュ値を用いることによって,N-gram法の利点である言語中立性や再現率の完全性を保持したまま,空間効率を改善することができる.