- 著者
-
片山 太一
芳中 隆幸
宇津呂 武仁
河田 容英
福原 知宏
- 雑誌
- 研究報告データベースシステム(DBS)
- 巻号頁・発行日
- vol.2009-DBS-149, no.19, pp.1-8, 2009-11-13
本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.