著者
北村 祐貴 狩野 均
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2009-BIO-19, no.12, pp.1-8, 2009-12-10

近年、インターネット上のスパムメールによる被害が深刻な問題になっている。そのため、スパムメールと正規メールを精度よく分類するためのスパムフィルタが多数提案されている。本論文では、分類の前処理として k-means 法によるクラスタリングを行うことにより分類精度を向上させる手法を提案する。前処理後の分類方法としては、通常のベイジアンフィルタまたは SVM フィルタを用いる。まず、学習に使うメール集合に対して k-means 法を適用し、その後クラスタごとにどのような特徴が表れているかを分析する。その結果に基づいてクラスタごとにフィルタの調整を行うことで分類精度の向上を達成した。TREC Public Corpus を用いた評価実験から、本手法の有効性を確認することができた。