著者
宇野毅明 中原孝信 前川浩基 羽室行信
雑誌
研究報告アルゴリズム(AL)
巻号頁・発行日
vol.2014-AL-146, no.2, pp.1-8, 2014-01-23

近年の IT 技術の発達により,ビッグデータを用いたデータ解析はますますその重要性を増している.しかし,ビッグデータ解析には,データの大きさ以外にも多様性という大きな困難がある.多様なデータは,それぞれ異なる特徴を持つグループから構成されているため,全体的に解析することが困難であり,まずグループ構造の解明が重要である.既存のクラスタリング手法やパターンマイニングによってグループ構造の解明にアプローチすると,解が大量,少数のグループしか見つけられない,類似する大量の解を生成,見つかるグループの大きさに大きなばらつきがある,計算コストが大きすぎる,といった難点にぶつかることになる.本稿では,グラフクラスタリング問題に対して,そもそもデータがどのようになっていればグループ構造が抽出しやすいかを考え,ノイズの少ない明確なデータを定義し,ノイズ混じりの生データを,そのグループ構造を壊さないように明確なデータへと変換する,データ研磨という手法を紹介する.また,データ研磨アルゴリズムとデータ研磨を行ったグラフが持つ数理的な構造を紹介し,将来的に 「明確なデータ」 を研究するための礎とする.