著者
好田 勲 柘植 覚 獅々堀正幹 北 研二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.17-22, 2003-03-06
被引用文献数
4

ベクトル空間モデル(Vector Space Model;VSM)は情報検索における代表的な検索モデルであり,検索対象文書および検索質問を多次元ベクトルで表現するう特徴を持っている.しかし,これらのベクトルは一般にスパースかつ高次元であるため,計算機のメモリによる制限や検索時間の増大などの問題が生じる.また,次元が増加するに連れ,文書中に含まれる不必要な索引語がノイズ的な影響を及ぼし検索精度を低下させてしまうという現象も起こってくる.以前,我々はこの問題を解決するため,Non-negative Matrix Factorization(NMF)を用いたVSMの次元圧縮手法を提案した.しかし,メモリの問題がまだ存在する.そこで,本稿では,k-means NMF を用いたVSMの次元圧縮手法を提案する.また,スパースな行列に対し有効な検索手法である検索質問拡張にNMFを用いる手法を提案する.MEDLINEコレクションを用いた検索実験を行った結果,NMFを用いた場合とk-means NMFを用いた場合では,検索精度を劣化することなく計算に必要なメモリを約$1/10$に軽減することができた.また,NMFを用いた検索質問拡張もVSMよりも高い検索精度を示すことができた.The Vector Space Model (VSM) is a conventional information retrieval model, which represents a document collection by a term-by-document matrix. Since term-by-document matrices are usually high-dimensional and sparse, they are susceptible to noise and are also difficult to capture the underlying semantic structure.Additionally, the storage and processing of such matrices places greatdemands on computing resources. Dimensionality reduction is a way toovercome these problems. We proposed non-negative matrix factorization(NMF) for dimensionality reduction of the vector space model.However,this method did not overcome memory problems. Hence, we proposek-means NMF for dimensionality reduction of the vector space model. And,we propose query expansion using NMF in this paper.Using MEDLINE collection, we experimentally showed that k-means NMF offers great improvement over the vector space model.

言及状況

はてなブックマーク (2 users, 2 posts)

[検索][プログラミング]
[検索][プログラミング]

収集済み URL リスト