- 著者
-
宇野 毅明
- 雑誌
- 研究報告アルゴリズム(AL) (ISSN:21888566)
- 巻号頁・発行日
- vol.2020-AL-177, no.2, pp.1-7, 2020-03-09
データ研磨は,データのゆらぎを除去することで中小規模の構造を明確化し,マイニングアルゴリズムの効率や精度を高める手法である.例えば,ネットワーククラスタリングの場合,グラフの密な部分をクリークにし,疎な部分を独立集合とすることで,クラスタ構造を明確にする.通常のクラスタリングが,比較的大きなクラスタを見つけることが上手であるのに対して,データ研磨によるクラスタリングは,小さくてまとまりの良いクラスタを網羅的に,かつ独立性高く,適切な個数で見つけることができる.実際にそのクラスタは意味解釈がしやすく,新聞記事やツイッターのクラスタリングによりトピックを網羅的に見つけることが可能である.また,アルゴリズムの挙動も極めて安定しており,大規模なデータでも数十の反復で収束に至ることがほとんどである.データ研磨のアルゴリズムの基本的なデザインはシンプルであり,根拠となるデータに対する観察も明らかである.一方,収束性や得られた解と数理構造との対応は不明瞭であり,いわば実行可能仮説寄りのモデルである.本稿では,データ研磨アルゴリズムの数理的な側面を明らかにすべく,その挙動に関する数理的な解析や確率的な解析を行い,データ研磨アルゴリズムの現実データでの挙動の良さを数理的に裏付ける.