著者
別所 克人 内山 俊郎 片岡 良治
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. MI, 医用画像 (ISSN:09135685)
巻号頁・発行日
vol.107, no.58, pp.79-84, 2007-05-17

従来のテキスト分類方式は、文書をベクトルとして表現し、コサイン類似度やユークリッド距離のような双方向性のある尺度を、ベクトル間の近さのベースと考えるものが多い。これに対し本稿では、カルバック・ライブラー距離という双方向性のない尺度をテキスト分類に導入する。単語ベクトル間の距離尺度としてカルバック・ライブラー距離を用いると、コサイン類似度を用いた場合と比べ、単語間の連想の様相が変わる。本稿では、この性質を利用し、従来のコサイン類似度やユークリッド距離をベースとする分類方式と、カルバック・ライブラー距離をベースとする分類方式を組み合わせる方式を提案する。評価実験の結果、組み合わせることにより、従来方式よりも精度が向上することを確認した。

言及状況

Twitter (1 users, 1 posts, 0 favorites)

CiNii 論文 -  単語間の階層関係に基づくテキスト分類方式(一般セッション,センシング技術とその応用) http://t.co/pWis4bvMma #CiNii

収集済み URL リスト