- 著者
-
小川 健司
稲葉 宏幸
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. SITE, 技術と社会・倫理 (ISSN:09135685)
- 巻号頁・発行日
- vol.108, no.459, pp.209-212, 2009-02-26
近年,パソコンや携帯電話が普及する中,通信手段として電子メールが多く利用されている.その中で,ユーザの意思に関わらず,有害かつ悪質なメールを受信することが多くある.なかには出会い系サイトへの勧誘等の犯罪性が高いメール等もあり,無視できなくなってきた.この対策手段の1つとして,フィルタリングがある.特に,ベイジアンスパムフィルタは統計的手法によりメールのスパム確率,つまり迷惑メールである確率を求め,継続的な学習によりフィルタの性能を向上させることができるため幅広く用いられている.しかし,ベイジアンスパムフィルタでも検知が難しいメールが存在する.このようなメールはメール本文中に含まれる単語の間に☆や★などの記号を挟んだり,記号を羅列している傾向がある.本報告では,まず最初に最近の迷惑メールと正規メール各1000通ずつについてメール本文中の記号と未知語の分布を調査した結果を示す.その結果,両者の間には明確な分布の違いがあることが明らかになった.そこでその違いをベイジアンスパムフィルタにおけるスパム確率の算出の際に利用する新たなフィルタを提案し,その性能を評価する.