- 著者
-
別所 克人
内山 俊郎
片岡 良治
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. MI, 医用画像 (ISSN:09135685)
- 巻号頁・発行日
- vol.107, no.58, pp.79-84, 2007-05-17
従来のテキスト分類方式は、文書をベクトルとして表現し、コサイン類似度やユークリッド距離のような双方向性のある尺度を、ベクトル間の近さのベースと考えるものが多い。これに対し本稿では、カルバック・ライブラー距離という双方向性のない尺度をテキスト分類に導入する。単語ベクトル間の距離尺度としてカルバック・ライブラー距離を用いると、コサイン類似度を用いた場合と比べ、単語間の連想の様相が変わる。本稿では、この性質を利用し、従来のコサイン類似度やユークリッド距離をベースとする分類方式と、カルバック・ライブラー距離をベースとする分類方式を組み合わせる方式を提案する。評価実験の結果、組み合わせることにより、従来方式よりも精度が向上することを確認した。