著者
池田 和史 柳原 正 服部 元 松本 一則 小野 智弘 滝嶋 康弘
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.8, pp.2474-2483, 2011-08-15

本稿では高速かつ高精度に有害サイトを検出するため, Webサイトの背景色やリンク先, ブラウザに特定の動作をさせるスクリプトなど, 有害サイトに特徴的に見られる傾向をHTML要素から検出する手法を提案する. 提案手法では有害サイトのHTMLに偏って出現するような文字列を自動的に抽出し, SVM(Support Vector Machine)を用いてこれらの特徴を組み合わせて有害サイトの検出を行う. 提案手法はWebサイトの本文の情報を利用しないため, 既存のキーワードベース方式によって検出が困難なサイトも検出が可能である. このため, 既存のキーワードベース方式と組み合わせて利用することで検出精度を向上させることも可能である. 大規模なWebサイトデータを用いた性能評価実験を行い, 既存のキーワードベース方式と比較して, 適合率を9.3ポイント向上するなどの性能向上を確認した.