著者
武吉 朋也 帆足 啓一郎 松本 一則 小野 智弘
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.53, no.12, pp.2841-2853, 2012-12-15

インターネットの普及により,一般ユーザでもオンラインでのディスカッションを容易に行えるようになった.このような状況下では,多数存在するディスカッションのそれぞれについて,どの程度円滑に進行しているのか数値化することがユーザ,およびディスカッションサイトの管理者双方にとって必要である.そこで本稿では,ディスカッションの円滑な進行に寄与すると人間が感じる発言のディスカッション全体に占める割合を健全度と定義し,ディスカッションのデータから単純集計により取得可能な参加人数や発言間の時間間隔等の表層的特徴量と,ディスカッションの内容を表す単語の重要度からなるテキスト特徴に基づいて,ディスカッションの健全度を定量化する手法を提案する.人手で付与した健全度に応じてディスカッションに健全,半分程度が荒れ,荒れの3つのラベルを設定し,提案手法によるラベル予測の精度を評価した結果,テキスト特徴のみに基づく分類手法よりもF値が上回ることを確認した.これにより,本稿で述べる提案手法は健全度が高いディスカッションをユーザに提示し,参加を促すといった利用シーンへの適用が期待できる.The spread of online community sites such as social networking services has made it possible for common users to conduct discussions online. The rapid increase of such online discussions has aroused the demand of technologies to automatically present lively and exciting online discussions to the user, and also to detect "flamed" discussions to the service providers to prevent unnecessary collisions between users. This research proposes a novel method to quantify the soundness of online discussion based on simple surface and textual features extracted from online discussions. The features used by the proposed method needs neither a large-scale dictionary nor advanced text analysis. In addition, the features are generic, thus extractable from any type of online discussion. Our proposed method achieved higher F-measure for the classification of "sound" and "flamed" online discussions than typical text classification methods using term features, proving the effectiveness to select such discussions to system users.
著者
服部 元 武吉 朋也 小野 智弘 滝嶋 康弘
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.109, no.390, pp.13-18, 2010-01-18
被引用文献数
1

本研究では,特定のテーマに関連するノウハウ情報を効率的に収集する「ノウハウ検索」手法を提案する.既存の検索エンジンにおいては,一般的に大量の検索結果が得られる.ここで,クエリが「富士山の標高」のような,検索結果上位の数文書程度を閲覧すれば十分な回答が得られるタイプの検索であれば,問題はない.一方,クエリが「おいしいカレーの作り方」のような多様なノウハウの収集を目的とするタイプの検索の場合は,なるべく多くのWeb文書を閲覧する必要があり,検索結果を順次閲覧する方法では,時間や労力の点で限界がある.本稿では,なるべく少ない閲覧数でより多くのノウハウを集める効率的な情報収集の手法を提案する.具体的には,単語の概念関係と出現頻度を利用してノウハウに関連する単語をWeb文書から抽出し,未読のノウハウ情報を含むWeb文書を優先的にユーザに提示する.評価実験を行い,単語の概念関係を導入することでノウハウに関連する単語を多く抽出できること,および,未読のノウハウ情報を優先的に提示することで,一般の検索結果を閲覧するよりも効率的にノウハウ情報を閲覧できることを示した.