著者
岡田 克彦 羽室 行信 加藤 直樹
出版者
関西学院大学
雑誌
基盤研究(B)
巻号頁・発行日
2013-04-01 (Released:2013-05-21)

本研究では、ニュースデータ、ブログデータ、SNSなどのソーシャルデータを大規模に収集し、それらがどの銘柄について語っているものなのかを自然言語処理の諸技術を用いてデータベース化した。この結果、全上場企業約3600社それぞれについて、ニュースおよびソーシャルメディアの情報を紐付けていることになる。次に、市場に流れるコメントやニュースについて、ポジティブな文脈で語られているのか、あるいはネガティブなのかについて、評価表現辞書を作成することでスコアリングした。こうして作成した指標をセンチメント指数として時系列で捉え、金融市場における様々なアノマリー現象と、センチメント指数との関連性を明らかにした。
著者
中原 孝信 宇野 毅明 羽室 行信
出版者
一般社団法人情報処理学会
雑誌
研究報告アルゴリズム(AL) (ISSN:09196072)
巻号頁・発行日
vol.2013, no.27, pp.1-8, 2013-10-30

本研究は,Twitter の投稿内容に,データ研磨技術を用いたマイクロクラスタリングを利用することで,単語の共起関係に基づいたクラスタによる概念を構築する.そして興味対象となるツイートをできる限り多く被覆するような少数のクラスタを,ナップサック制約付き最大被覆問題を用いて抽出することで,投稿内容の要約を行う.抽出されたクラスタは,ある特定のツイート群の文章を特徴付ける単語のグループとして捉えることができ,それらを概念として扱う事で,単語を独立に扱った場合に比べて,すぐれた要約になっていることを示す.計算実験では,テレビアニメーション番組「宇宙兄弟」に関する投稿内容を対象にして提案手法を適用した.This research proposes a method to detect the contents of Twitter posts by analyzing the contents of tweets posted by viewers watching a specific TV program whenever the number of posts increase dramatically and then to summarize that content. First the proposed method creates concepts from clusters based on the co-occurrence of words. Then posts during tweet bursts are taken to be tweets of interest, and a minimal number of clusters that cover as much as possible those tweets are extracted using a knapsack-constrained maximum covering problem. A computational experiment shows the effectiveness of the proposed method with reference to a TV animation program "Space Brothers."
著者
宇野毅明 中原孝信 前川浩基 羽室行信
雑誌
研究報告アルゴリズム(AL)
巻号頁・発行日
vol.2014-AL-146, no.2, pp.1-8, 2014-01-23

近年の IT 技術の発達により,ビッグデータを用いたデータ解析はますますその重要性を増している.しかし,ビッグデータ解析には,データの大きさ以外にも多様性という大きな困難がある.多様なデータは,それぞれ異なる特徴を持つグループから構成されているため,全体的に解析することが困難であり,まずグループ構造の解明が重要である.既存のクラスタリング手法やパターンマイニングによってグループ構造の解明にアプローチすると,解が大量,少数のグループしか見つけられない,類似する大量の解を生成,見つかるグループの大きさに大きなばらつきがある,計算コストが大きすぎる,といった難点にぶつかることになる.本稿では,グラフクラスタリング問題に対して,そもそもデータがどのようになっていればグループ構造が抽出しやすいかを考え,ノイズの少ない明確なデータを定義し,ノイズ混じりの生データを,そのグループ構造を壊さないように明確なデータへと変換する,データ研磨という手法を紹介する.また,データ研磨アルゴリズムとデータ研磨を行ったグラフが持つ数理的な構造を紹介し,将来的に 「明確なデータ」 を研究するための礎とする.
著者
前川 浩基 内田 将史 大内 章子 宇野 毅明 羽室 行信
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

Twitterのユーザ関係データに対して我々が開発したデータ研磨手法を適用することで、潜在的な近接関係の補完、およびノイズを除去が可能となり、ユーザのクラスタを鮮明化することができる。この手法を、女性の三年育休問題に関するTwitter投稿データに適用することで、ユーザの意見の変化検出を試みる。
著者
中原 孝信 前川 浩基 羽室 行信
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
オペレーションズ・リサーチ : 経営の科学 (ISSN:00303674)
巻号頁・発行日
vol.58, no.8, pp.442-448, 2013-08-01

本研究は,特定のテレビ番組を視聴しながら投稿されたツイートの内容を解析することで,急激に投稿数が増加したときの内容などを検出し,それらを要約する手法を提案する.提案手法では,まず単語の共起関係に基づいたクラスタリングから概念を生成する.そして,バースト時の投稿と番組の台詞に一致した投稿を興味対象のツイートとして考え,それらのツイートをできる限り多く被覆するような少数のクラスタをナップサック制約付き最大被覆問題を用いて抽出する.抽出されたクラスタは,興味対象のツイートから得られたトピックを表していると考え,膨大なツイートから特定の目的に関係する投稿内容を要約することが可能である.計算実験では,テレビアニメーション番組「宇宙兄弟」を対象にして提案手法の有効性を示す.