著者
相澤 彰子
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.7, pp.1720-1730, 2003-07-15

本論文ではテキスト分類における低頻度語の利用とその効果について述べる.テキストに含まれる多数の低頻度語を手がかりとして利用するために,線形判別関数に基づく単純なテキスト分類法に注目し, (1)情報量的な観点に基づく重み付け尺度,(2)確率的言語モデルにおける統計的ディスカウンティング法の適用,(3)形態素解析ツールを利用した複合語抽出処理による性能の改善を目指す.実験では,ともにスケーラビリティに優れた手法である単純ベクトル法やサポートベクタマシンを用いて,大規模なテキスト分類問題における改善や特性を考察する.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

収集済み URL リスト