著者
沢井 康孝 山本 和英
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.15, no.2, pp.101-136, 2008-04-10 (Released:2011-03-01)
参考文献数
9
被引用文献数
1 6

ある入力文書が多くの人にとってどの程度興味や関心を持つかを算出する指標を提案する. 各個人の興味や関心は多種多様であり, これを把握することで情報のフイルタリング等を行う研究は知られているが, 本研究では不特定多数すなわち大衆が全体でどの程度の興味を持つかについて検討を行った. このような技術は, 不特定多数に対して閲覧されることを想定しているWebサイトにおける提示文書の選択や表示頂の変更など, 非常に重要な応用分野を持っている. 我々は大衆の興味が反映されている情報源として順位付き文書を使用した. 本手法ではこれを学習データとして利用して, 文書に含まれる語句及び文書自体に興味の強弱を値として付与する手法を構築した. 興味を値として扱うことで, 興味の強弱を興味がある・ないの2値ではなく興味の程度を知ることや興味発生の因分析を行うことが可能である. 提案手法は, 文書に含まれる語句を興味判別する素性として扱い, 内容語, 複合名詞, 内容語及び複合名詞の組み合わせの3種類について比較, 議論した. 評価は, ニュース記事のランキングを対象にして, 実際の順位とシステムの順位を比較した. その結果, 順位相関に基づいた評価値はOh867であり, 手法の有効性を確認した. さらに, ほぼ興味を持たれない記事に対して抽出精度0.90を超える精度で弁別できることを実験で確認した.