- 著者
-
福本 文代
鈴木 良弥
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
- 巻号頁・発行日
- vol.89, no.3, pp.552-566, 2006-03-01
- 被引用文献数
-
2
本論文では,人手により複数の分野名が付与された文書における分野名誤りのうち,文書分類の精度に悪影響を与えるものを自動的に検出し,修正する手法を提案する.我々は,誤り検出と修正の手掛りとして三つの点に注目する.1点目は分類に悪影響を与える事例を抽出するために機械学習Support Vector Machines(SVMs)で得られるサポートベクトルと機械学習Naive Bayes(NB)を利用する点である.2点目は誤り事例を検出するために損失関数を利用する点である.3点目は,過剰な修正を抑えるため,分野名をノードとする階層構造を利用する点である.Reuters1996のコーパスを用いて実験を行った結果,誤り検出と修正の精度はそれぞれ0.8391,0.767であった.更に,修正結果を文書分類へ適用した結果,分類精度が0.5〜1.7%向上することが分かり,誤り修正の効果が現れていることが確認できた.