著者
姜 ナウン
出版者
京都大学
巻号頁・発行日
2009-03-23

近年,ウェブページが爆発的に増加しており,我々は検索エンジンを用いることにより多種多様な情報を得ることができる.しかし,ウェブページの約40%が類似ページといわれており,検索結果に類似ページが含まれるという問題がある.本研究では1 億ページという大規模なウェブコレクションを対象として,類似ページ検出を行なう.本研究では類似ページを,文字列をある程度共有する2つのページと定義し,ミラーページなどの同一ページ,引用ページ,盗作ページなどが含まれる.本手法はまず,各ページから長い低頻度の文を抽出する.これは,文長が長く,また,ウェブ全体での頻度が低い文を2 ページで共有すればこれらのページは関連性が高いといえるためである.また,各ページにおいてコンテンツ領域を抽出し,コンテンツ領域にある文のみを類似ページ検出の手がかりとする.これは非コンテンツ領域にある文を共有しても2 つのページに関連性が低いからである.以上の処理によって得られた文を共有するページペアを類似ページとみなす.次に,類似ページを同一ページ,引用ページ,盗作ページなどに自動分類する.分類は,ページに対する類似文字列の割合である重複率,インリンク/アウトリンクの有無,URLの類似度などの様々な情報を用いて行なう.類似ページ検出の実験を行なったところ,単純なURLの正規化ではわからないミラーページや,引用ページ,様々なサイトから記事をはりあわせたようなスパムページを発見することができた.

言及状況

はてなブックマーク (1 users, 2 posts)

収集済み URL リスト