王戦 堀 良彰 櫻井 幸一
情報処理学会研究報告コンピュータセキュリティ(CSEC) (ISSN:09196072)
vol.2006, no.43, pp.45-50, 2006-05-12

迷惑メールに対する,ベイズ確率を用いた統計的なフィルタリング(いわゆるベイジアンフィルタ)の研究は以前から行われていたが,2002年に発表されたP.Grahamの論文"A plan for spam"[1]は人々の注目を集め ベイジアンフィルタを実装したソフトウェアが多数開発されるようになった.ベイジアンフィルタリング[4][5][8]に対する研究は,日本語と英語の電子メールについては盛んである.しかし,中国語闇の電子メールに対しては今まで学術的な解析が行われていなかった.そこで本論文では,中国語の電子メールを処理する際のベイジアンフィルタリングのパラメータと迷惑メール判定精度の関係について分析し,パラメータの最適値について考察した.A statistical filtering based on Bayes theory, so-called bayesian filtering, has been researched for anti-spam through it before. From Graham`s thesis in 2002,a lot of spam mail filters based on the Bayesian filtering have been developed and widely applied to the real system in recent years.The implementation of the statistical filtering corresponding to the e-mail written in English and Japanese has already been developed. On the other hand,the implementation of the statistical filtering corresponding to e-mail written in Ohinese is still few. In this thesis、we adopted a statistical filtering called as Bsfilter and modified it to filter out e-mails written in Chinese. When we targeted e-mails written in Chinese for experiment,we analyzed the relation between the parameter and the spam mail judgment accuracy of the filtering, and also considered the optimal value of the parameter.