- 著者
-
福元伸也
渕田孝康
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 研究報告データベースシステム(DBS)
- 巻号頁・発行日
- vol.2014, no.28, pp.1-5, 2014-11-11
近年,ビッグデータと呼ばれる大規模データから有益な情報を抽出しようとする試みが広く行われており,テキストデータの解析に関する多くの研究がなされている.本研究では,シソーラスの分類語彙表を用いて,単語の特徴ベクトルである共起行列を生成する手法を提案する.出現単語のみによる共起行列を,単語の意味を考慮した分類語に変換することにより,共起行列の次元数が増大するのを抑えることができ,単語の特徴ベクトルをより的確なベクトルとして表現できる.また,得られた共起行列から分類を行うための学習器には,アンサンブル学習の 1 つであるランダムフォレストと大規模データに対して高度な分析が可能な機械学習フレームワークである Jubatus を用いた.実験では,ニュース記事のカテゴリ分類を行い,複数の学習アルゴリズムについて検証した.