著者
邱 起仁 櫨山 淳雄
雑誌
研究報告グループウェアとネットワークサービス(GN)
巻号頁・発行日
vol.2014-GN-91, no.57, pp.1-6, 2014-03-06

Twitter には,ニュース記事の話題に対する意見や感想を含む投稿が多数存在している.そこで本研究では,それらの意見や感想を抽出するため,ニュース記事に関連するツイートを収集する手法を提案する.ツイートはリンク付きツイート,リンクなしツイートに分類できる.提案手法では,まずリンク先のテキストを利用し,リンク付きツイートとニュース記事を関連づける.次に,リンク付きツイートがニュース記事を言及する際に,ニュース記事から引用した語を重要語とし,それらの語の重要度を考慮し,リンクなしツイートとニュース記事の関連づけを行う.また,ニュース記事の作成時刻とツイートの投稿時刻が近ければ近いほど,同じ話題に関連する可能性が高いと考えられる.そこで本研究では,ニュース記事とツイートの内容的類似性のみではなく,時間的類似性を合わせて考慮することで,関連づけの精度を向上させる.評価実験により,提案手法は 88.1%の適合率を保ちながら 98.1%の再現率でニュース記事に関連するリンク付きツイートを抽出することができ,65.2%の適合率を保ちながら 93.8%の再現率でニュース記事に関連するリンクなしツイートを抽出することができた.
著者
吉田 綾奈 邱 起仁 櫨山 淳雄
出版者
一般社団法人情報処理学会
雑誌
研究報告ヒューマンコンピュータインタラクション(HCI) (ISSN:09196072)
巻号頁・発行日
vol.2014, no.35, pp.1-6, 2014-03-06

インターネットが普及したことにより,SNS 上でなど,コンピュータを介したコミュニケーション (Computer-Mediated Communication: CMC) が日常的になっている.CMC では主にテキストによるコミュニケーションが行われる.マイクロブログの代表例である Twitter では,文字数に制限があるので,簡潔に感情を伝えるために顔文字を使用する.顔文字の種類は日々増えており,その膨大な量を把握することはもちろん,多数の顔文字から自分が伝えたい感情に適した顔文字を決定することが難しくなっているというのが現状である.そこで本研究では,伝えたい感情に適した顔文字を推薦するための足がかりとして,顔文字を Twitter のつぶやきから自動的に抽出し,つぶやきの文章から検出した感情を付与した顔文字データベースを構築する.The growth of the Internet makes Computer-Mediated Communication (hereafter CMC) getting popular in these days. Communication by text is mainly conducted on CMC. In Twitter, one of the representative examples of micro-blog, emoticons are used for showing the feeling briefly because the number of letters is limited in Twitter. The number of emoticons is increasing, thus that it is difficult not only to figure out the total amount of emoticons, but also to choose a proper emoticon that shows the feeling we would like to express to others from enormous emoticons. In this study, an emoticon database is constructed. It is composed of emoticons that are automatically extracted from tweets on Twitter and associated with emotion which is inferred from them.
著者
邱 起仁 櫨山 淳雄
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2013-DBS-158, no.22, pp.1-6, 2013-11-19

本論文では,Twitter からニュース記事に関連する tweets を収集することを目的とし,Twitter の投稿とニュース記事の類似度の計算手法を提案する.Twitter の投稿には 140 文字という長さの制限がある.従来の TF-IDF 法だけでは比較的に短文である Twitter の投稿の特徴語を抽出するのが困難である.そこで本論文では,確実にニュース記事に関連する Twitter の投稿 (そのニュース記事への URL を引用する投稿) に出現した語は,同じニュース記事を言及する他の Twitter の投稿にも使用される可能性が高いと考え,それらの語を特徴語として抽出する.また,Twitter の投稿とニュース記事の内容類似度のみではなく,時間類似度も考慮することで,類似度計算の精度を向上させる.