著者
成澤和志 山田 泰寛 池田 大輔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.59, pp.45-52, 2006-05-30

プログの増加が著しい近年、プログスパムが大きな問題であり、スパム検出の技術の発達が求められている。スパム検出に関する研究は内容解析やリンク解析によるものが多く、複雑な処理やアルゴリズムを使用する。我々はプログスパムの内容ではなく、コピーされ大凰に生成される性質に着目した手法を提案する。テキストの部分文字列を数え上げた時、出現頻度と異なり数にはジップの法則が成り立つことを利用して、自然言語の知識を必要としない、高速なスパム検出の技術を得ることができる。また、我々は人エ的なデータによる本手法の正当性を調ぺ、実際のプログデータから本手法によりプログスパムを検出することに成功した。Blog spam detection is a key for the blog spam problems as the number of blog sites is extermery in creasing.Existing methods for blog spam detection are based on contexts o rlinkstructures analysis,and does not work well completely.We suggest a method utilizing thefact that spamsaremassproducedatalowcostinsteadoftheircontext・Ourmethoddoesnot need backgroundknowledge of blog entries,such as naturallanguages,because of usingZipf's law for the frequency and the vocabulary size of substrings.We present the validity of our method by artificial data set,and succeed to detect blog spamsftomactualblogentries.