著者
大倉 務 清水 伸幸 中川 裕志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.1-6, 2007-09-25
被引用文献数
3

本論文では,ブログの著者属性推定問題を扱う.ブログを用いた流行分析が広がりつつあるが,その際に年齢・性別・居住域などの著者属性が分かればその有用性はさらに高まる.これまでに,いくつかのブログの著者属性推定手法が提案されてきたが,汎用的なものではなかった.本論文では著者属性推定問題を,個々の属性固有の性質を利用しない単純な多クラス文書分類問題ととらえ,χ2値による素性選択と Complement Naive Bayes を用いる方法を提案する.その上で提案手法を現実のブログデータに適用する実験を行い,汎用的であるにも関わらず高速かつ高精度に著者属性を推定できることを示す.We propose a general and scalable method to estimate bloggers' unstated profiles. Recently, trend analysis based on weblogs is gaining popularity, and blogger profiles provide us more detailed interpretation of data. None of previous studies proposed a method generally applicable to different attributes. In this paper, we reduce blogger profile estimation to text classification, using Complement Naive Bayes with feature selection based on χ2 value. We applied our proposed general method to real weblog data, and experimental results show the its effectiveness and scalability.