- 著者
-
小川 健司
稲葉 宏幸
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 研究報告インターネットと運用技術(IOT) (ISSN:09196072)
- 巻号頁・発行日
- vol.2009, no.21, pp.209-212, 2009-02-26
近年,パソコンや携帯電話が普及する中,通信手段として電子メールが多く利用されている.その中で,ユーザの意思に関わらず,有害かつ悪質なメールを受信することが多くある.なかには出会い系サイトへの勧誘等の犯罪性が高いメール等もあり,無視できなくなってきた.この対策手段の1つとして,フィルタリングがある.特に,ベイジアンスパムフィルタは統計的手法によりメールのスパム確率,つまり迷惑メールである確率を求め,継続的な学習によりフィルタの性能を向上させることができるため幅広く用いられている.しかし,ベイジアンスパムフィルタでも検知が難しいメールが存在する.このようなメールはメール本文中に含まれる単語の間に☆や★などの記号を挟んだり,記号を羅列している傾向がある.本報告では,まず最初に最近の迷惑メールと正規メール各1000通ずつについてメール本文中の記号と未知語の分布を調査した結果を示す.その結果,両者の間には明確な分布の違いがあることが明らかになった.そこでその違いをベイジアンスパムフィルタにおけるスパム確率の算出の際に利用する新たなフィルタを提案し,その性能を評価する.Recently, spam mail, that is an irrelevant and unsolicited mail, is one of the most serious problem in Internet. A Bayesian spam filter is a popular method to deal with the problem at a recipient computer. However, a mail which includes many symbols and unknown words is hardly classified accurately by a conventional Bayesian spam filter. In this report, we propose a new Bayesian type spam filter which utilize a distribution of symbols and unknown words included in the received mail. We confirm the performance of the proposed method by experiment.