著者
杉井 学 松野 浩嗣
出版者
情報処理学会
雑誌
情報処理学会研究報告マルチメディア通信と分散処理(DPS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.16, pp.183-188, 2007-03-01

単語の出現頻度と語順解析を組み合わせた機械学習システムを用いて、スパムメールの特徴抽出を試みた。このシステムは、スパムメール群とそれ以外のメール群をそれぞれ正の学習例と負の学習例として与えると、学習例ごとに特徴的に出現する単語と文章中での出現パターンを解析して、二つの群を分ける規則を決定木として出力する。得られた決定木から、スパムメールの持つ特性について考察し、メールフィルターシステム構築の方策を検討した。We have tried to identify features of spam mails using machine learning system with a combination of word sequence analysis and the appearing rate of words. This machine learning system creates a decision tree as the classification rule from positive and negative examples by analyzing the distinctive features of words and its appearing patterns in a sentence. We discussed architecture and plan for constructing spam mail filter system on the basis of the decision tree functions getting from computational experiments of this research.