著者
福元伸也 渕田孝康
雑誌
研究報告組込みシステム(EMB)
巻号頁・発行日
vol.2014-EMB-35, no.28, pp.1-5, 2014-11-11

近年,ビッグデータと呼ばれる大規模データから有益な情報を抽出しようとする試みが広く行われており,テキストデータの解析に関する多くの研究がなされている.本研究では,シソーラスの分類語彙表を用いて,単語の特徴ベクトルである共起行列を生成する手法を提案する.出現単語のみによる共起行列を,単語の意味を考慮した分類語に変換することにより,共起行列の次元数が増大するのを抑えることができ,単語の特徴ベクトルをより的確なベクトルとして表現できる.また,得られた共起行列から分類を行うための学習器には,アンサンブル学習の 1 つであるランダムフォレストと大規模データに対して高度な分析が可能な機械学習フレームワークである Jubatus を用いた.実験では,ニュース記事のカテゴリ分類を行い,複数の学習アルゴリズムについて検証した.
著者
福元伸也 渕田孝康
出版者
一般社団法人情報処理学会
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2014, no.28, pp.1-5, 2014-11-11

近年,ビッグデータと呼ばれる大規模データから有益な情報を抽出しようとする試みが広く行われており,テキストデータの解析に関する多くの研究がなされている.本研究では,シソーラスの分類語彙表を用いて,単語の特徴ベクトルである共起行列を生成する手法を提案する.出現単語のみによる共起行列を,単語の意味を考慮した分類語に変換することにより,共起行列の次元数が増大するのを抑えることができ,単語の特徴ベクトルをより的確なベクトルとして表現できる.また,得られた共起行列から分類を行うための学習器には,アンサンブル学習の 1 つであるランダムフォレストと大規模データに対して高度な分析が可能な機械学習フレームワークである Jubatus を用いた.実験では,ニュース記事のカテゴリ分類を行い,複数の学習アルゴリズムについて検証した.
著者
福元伸也 渕田孝康
雑誌
研究報告システムソフトウェアとオペレーティング・システム(OS)
巻号頁・発行日
vol.2014-OS-131, no.28, pp.1-5, 2014-11-11

近年,ビッグデータと呼ばれる大規模データから有益な情報を抽出しようとする試みが広く行われており,テキストデータの解析に関する多くの研究がなされている.本研究では,シソーラスの分類語彙表を用いて,単語の特徴ベクトルである共起行列を生成する手法を提案する.出現単語のみによる共起行列を,単語の意味を考慮した分類語に変換することにより,共起行列の次元数が増大するのを抑えることができ,単語の特徴ベクトルをより的確なベクトルとして表現できる.また,得られた共起行列から分類を行うための学習器には,アンサンブル学習の 1 つであるランダムフォレストと大規模データに対して高度な分析が可能な機械学習フレームワークである Jubatus を用いた.実験では,ニュース記事のカテゴリ分類を行い,複数の学習アルゴリズムについて検証した.