- 著者
-
正田備也
高須 淳宏
安達 淳
- 雑誌
- 情報処理学会論文誌データベース(TOD) (ISSN:18827799)
- 巻号頁・発行日
- vol.48, no.SIG11(TOD34), pp.14-26, 2007-06-15
文書分類のための代表的な確率論的手法にナイーヴ・ベイズ分類器がある.しかし,ナイーヴ・ベイズ分類器は,スムージングと併用して初めて満足な分類精度を与える.さらに,スムージング・パラメータは,文書集合の性質に応じて適切に決めなければならない.本論文では,パラメータ・チューニングの必要がなく,また,多様な文書集合に対して十分な分類精度を与える効果的な確率論的枠組みとして,混合ディリクレ分布に注目する.混合ディリクレ分布の応用については,言語処理や画像処理の分野で多く研究がある.特に,言語処理分野の研究では,現実の文書データを用いた実験も行われている.だが,評価は,パープレキシティという純粋に理論的な尺度によることが多い.その一方,テキスト・マイニングや情報検索の分野では,文書分類の評価に,正解ラベルとの照合によって計算される精度を用いることが多い.本論文では,多言語テキスト・マイニングへの応用を視野に入れて,英語の20 newsgroupsデータ・セット,および,韓国語のWebニュース文書を用いて文書分類の評価実験を行い,混合ディリクレ分布に基づく分類器とナイーヴ・ベイズ分類器の,定性的・定量的な違いを明らかにする.