- 著者
-
柘植 覚
獅々堀正幹
北 研二
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2001, no.20, pp.1-6, 2001-03-05
- 被引用文献数
-
4
ベクトル空間モデル(Vector Space Model; VSM)は情報検索における代表的な検索モデルであり,検索対象文書および検索質問を多次元ベクトルで表現するという特徴を持っている.しかし,これらのベクトルは一般にスパースかつ高次元であるため,計算機のメモリによる制限や検索時間の増大などの問題が生じる.また,次元が増加するに連れ,文書中に含まれる不必要な単語がノイズ的な影響を及ぼし検索精度を低下させてしまうという現象も起こってくる.本稿では,Non-negative Matrix Factorization(NMF)を用いたベクトル空間モデルの次元圧縮手法を提案する.NMFは非負行列を2つの非負行列の積に分解する手法であり,分解された非負の2行列は基底行列とその基底のもとでの座標値から成る行列とみなすことができる.基底行列のランクを元の行列のランクより小さくすることにより,次元圧縮が可能となる.NMFは,主成分分析や特異値分解などと異なり,非負制約条件で行列分解を行うため,元の行列を減算を伴わない加算のみの線形結合で表現することができる.これは部分から全体を構成するという我々の直観を反映している.また,NMFは単純な繰り返し演算のみで実行可能であるため,大規模な行列に対して,計算コストや記憶容量の点で他の次元削減手法よりも優れている.MEDLINEコレクションを用いた検索実験を行い,NMFは通常のベクトル空間モデルよりも高い検索性能を示すことができた.The Vector Space Model(VSM) is a conventional information retrieval model, which represents a document collection by a term-by-document matrix. Since term-by-document matrices are usually high-dimensional and sparse, they are susceptible to noise and are also difficult to capture the underlying semantic structure. Additionally, the storage and processing of such matrices places great demands on computing resources. Dimensionality reduction is a way to overcome these problems. Principal Component Analysis(PCA) and Singular Value Decomposition(SVD) are popular techniques for dimensionality reduction based on matrix decomposition, but they contain both positive and negative values in the decomposed matrices. In the work described here, we use non-negative matrix factorization(NMF) for dimensionality reduction of the vector space model. Since decomposed matrices by NMF only contain non-negative values, the original data is represented by only additive, not subtractive, combinations of the basis vectors. This characteristic of parts-based representation is appealing because it reflects the intuitive notion of combining parts to form a whole. Also NMF computation is based on the simple iterative algorithm, it is therefore advantageous for applications involving large matrices. Using MEDLINE collection, we experimentally showed that NMF offers great improvement over the vector space model.