- 著者
-
池田 和史
柳原 正
服部 元
松本 一則
小野 智弘
滝嶋 康弘
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.52, no.8, pp.2474-2483, 2011-08-15
- 被引用文献数
-
2
本稿では高速かつ高精度に有害サイトを検出するため, Webサイトの背景色やリンク先, ブラウザに特定の動作をさせるスクリプトなど, 有害サイトに特徴的に見られる傾向をHTML要素から検出する手法を提案する. 提案手法では有害サイトのHTMLに偏って出現するような文字列を自動的に抽出し, SVM(Support Vector Machine)を用いてこれらの特徴を組み合わせて有害サイトの検出を行う. 提案手法はWebサイトの本文の情報を利用しないため, 既存のキーワードベース方式によって検出が困難なサイトも検出が可能である. このため, 既存のキーワードベース方式と組み合わせて利用することで検出精度を向上させることも可能である. 大規模なWebサイトデータを用いた性能評価実験を行い, 既存のキーワードベース方式と比較して, 適合率を9.3ポイント向上するなどの性能向上を確認した.In this paper, we propose high-speed and accurate algorithms for detecting malicious Web pages. Our algorithms detect the features of malicious Web pages from their HTML elements such as the background colors of Web pages, the server names related to malicious Web pages, or the name of javascript functions that makes browsers perform unusual actions in response to malicious Web pages. Strings that appear especially in HTML elements of malicious Web pages are automatically chosen. SVMs (Support Vector Machines) combine these strings and detect malicious Web pages. Since our algorithms do not rely on the text parts of Web pages, they can detect Web pages that existing text-based algorithms have difficulty in detecting. By conducting a large-scale performance evaluation with real malicious Web pages, we showed that the hybrid algorithms of our algorithms and existing text-based algorithms increase the precision of existing text-based algorithms alone by 9.3 points.