- 著者
-
萩行 正嗣
柴田 知秀
黒橋 禎夫
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
- 巻号頁・発行日
- vol.185, pp.45-52, 2008-05-15
- 参考文献数
- 14
- 被引用文献数
-
1
近年、インターネット環境の普及とともに数多くの人がブログを通じて情報を発信するようになっている。それに伴い、大量に存在するブログから面白いものを探し出すことが困難になってきている。本研究では表層・語彙的特徴量に基づき、ブログの面白さを分析する手法を提案する。まず、ブログの記事から文字長などの表層的特徴量や評価表現などの語彙的特徴量といった様々な特徴量を抽出する。そして,これらを特徴量として与えてSVRを用いた機械学習を行なうことで、ブログの面白さを推定する。独自に設置したブログを用いて収集した249件のブログ記事とそれを採点したものを用いて実験を行なったところ,ベースラインを上回る精度を達成することができた。また、面白さの個人差の問題についてはドメインアダプテーションを用いることで対処した。最後に、学習されたモデルからブログの面白さの要因について考察を行なった。