- 著者
-
佐藤智博
青野雅樹
- 雑誌
- 第75回全国大会講演論文集
- 巻号頁・発行日
- vol.2013, no.1, pp.693-694, 2013-03-06
ウェブでの情報検索手段として検索エンジンが広く用いられている.しかし,検索エンジンによるランキングを不正に得る行為が横行しており,これをウェブスパムと呼ぶ.そのコンテンツは機械生成的に単語を羅列したり,近い意味の単語を組み合わせたりすることにより構成されていることが多い.そこで本研究は,ウェブスパム検出の為の効率的なコンテンツベース素性を抽出する手法を提案する.ウェブスパムコーパスに対し潜在的ディリクレ配分法(LDA)を適用することで,トピック毎に単語群を抽出することができる.これらから単語を選択しコンテンツベース素性とする.この素性を用いて機械学習によるウェブスパム検出を行い,提案手法の有効性を確認した.