著者
城市 広大 三好 力
出版者
日本知能情報ファジィ学会
雑誌
知能と情報 (ISSN:13477986)
巻号頁・発行日
vol.18, no.2, pp.184-195, 2006 (Released:2007-04-20)
参考文献数
12

インターネット上のWEBページを検索するには検索エンジンを利用するのが一般的であるが, 検索結果の中にユーザーの求める情報を持つページが高い順位で表示されない問題が指摘されている. この理由の一つとして, ユーザーが入力した検索語を含むページを, 検索エンジンが単純に選択していることが挙げられる. 言葉には意味的な多義性や曖昧性があるため, ユーザーがある検索意図を持って検索語を入力しても, 使用した検索語によっては意図と異なる種類のページが混在した状態の検索結果になりやすい.この様な検索結果を改善する方法として, 検索結果に出力されたページ群を内容別に自動分類する手法が研究されており, その一手法としてベクトル空間法を用いるのが一般的である. ベクトル空間法はページ内容の類似性を, 使用単語を次元としたベクトル空間により求める手法であるが, ベクトル空間法をそのままWEBページ分類に適用した場合, 2つの問題点が挙げられる. 1つはページ中に1回でも使用された単語全てを用いるので次元数が大きくなり, 計算コストが大きくなってしまうこと, もう1つはページ間の類似性だけを計算するのでグループの内容を示す言葉を抽出することができず, ページ分類後に各グループの名前もしくは基準をユーザー側に提示できないことである.我々はこの問題点に着目し, 改善を加えることで検索結果のWEBページ群を内容別に自動分類するシステムを提案した. 次元数が大きくなる問題に対しては, ファジィ推論を用いてベクトル空間に使用する単語を一定数だけ選択することで解決を図る. ページ全体での単語の使用傾向をファジィルールに当てはめることで, 重要な単語とそうでない単語との判別が可能であると考えた. もうひとつの問題である, ユーザーに提示するグループの基準については単語の共起頻度を用いることでグループ名を自動作成し, それを基にグループの代表となるページを選択する手法をとった. また, システムについての実験を行い, 選択する単語の総数が200のときが計算コストと分類精度の点から見て最適であること, システムによる分類結果から人間の感覚に近いWEBページの分類が行われることを確認した.