著者
北村 順平 青野 雅樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.113, pp.45-50, 2008-11-19

ウェブスパムでは、より多くのトラフィックを集めることを目的に様々なスパミング手法が用いられている。ウェブの専門家がウェプスパムを識別することは不可能ではないが、膨大な数のウェブスパムを 1 つ 1 つ識別することは非現実的である。そこで我々は、機械学習を用いることで半自動的にウェブスパムを検出する手法を提案した。本手法では訓練用のウェブサイトとテスト用のウェプサイト間の類似度を求めることでウェブスパムの検出を行う。類似度は KNN と SVM を組み合わせた SVM-KNN を拡張したものを用いた。WEBSPAM-UK2007 データセット [1] を用いて本手法の評価を行った結果、効率的にウェブスパムを検出できることを確認した。Web spams use many kind of techniques to achieve more traffic from search engines. A web specialist can identify a webspam from websites but it's a distant idea to identify all webspams from a huge number of websites. We propose a method which can semi-automatically detect webspams by applying machine learning techniques. Our method uses similarity of websites to detect webspams. Similarities are determined by KNN, SVM and SVM-KNM. Experimental results on WEBSPAM-UK2007 datasets [1] show that we can efficiently identify webspams.