著者
前川 浩基 内田 将史 大内 章子 宇野 毅明 羽室 行信
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.28, 2014

Twitterのユーザ関係データに対して我々が開発したデータ研磨手法を適用することで、潜在的な近接関係の補完、およびノイズを除去が可能となり、ユーザのクラスタを鮮明化することができる。この手法を、女性の三年育休問題に関するTwitter投稿データに適用することで、ユーザの意見の変化検出を試みる。
著者
宇野毅明 中原孝信 前川浩基 羽室行信
雑誌
研究報告アルゴリズム(AL)
巻号頁・発行日
vol.2014-AL-146, no.2, pp.1-8, 2014-01-23

近年の IT 技術の発達により,ビッグデータを用いたデータ解析はますますその重要性を増している.しかし,ビッグデータ解析には,データの大きさ以外にも多様性という大きな困難がある.多様なデータは,それぞれ異なる特徴を持つグループから構成されているため,全体的に解析することが困難であり,まずグループ構造の解明が重要である.既存のクラスタリング手法やパターンマイニングによってグループ構造の解明にアプローチすると,解が大量,少数のグループしか見つけられない,類似する大量の解を生成,見つかるグループの大きさに大きなばらつきがある,計算コストが大きすぎる,といった難点にぶつかることになる.本稿では,グラフクラスタリング問題に対して,そもそもデータがどのようになっていればグループ構造が抽出しやすいかを考え,ノイズの少ない明確なデータを定義し,ノイズ混じりの生データを,そのグループ構造を壊さないように明確なデータへと変換する,データ研磨という手法を紹介する.また,データ研磨アルゴリズムとデータ研磨を行ったグラフが持つ数理的な構造を紹介し,将来的に 「明確なデータ」 を研究するための礎とする.
著者
中原 孝信 前川 浩基 羽室 行信
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
オペレーションズ・リサーチ : 経営の科学 (ISSN:00303674)
巻号頁・発行日
vol.58, no.8, pp.442-448, 2013-08-01

本研究は,特定のテレビ番組を視聴しながら投稿されたツイートの内容を解析することで,急激に投稿数が増加したときの内容などを検出し,それらを要約する手法を提案する.提案手法では,まず単語の共起関係に基づいたクラスタリングから概念を生成する.そして,バースト時の投稿と番組の台詞に一致した投稿を興味対象のツイートとして考え,それらのツイートをできる限り多く被覆するような少数のクラスタをナップサック制約付き最大被覆問題を用いて抽出する.抽出されたクラスタは,興味対象のツイートから得られたトピックを表していると考え,膨大なツイートから特定の目的に関係する投稿内容を要約することが可能である.計算実験では,テレビアニメーション番組「宇宙兄弟」を対象にして提案手法の有効性を示す.