- 著者
-
岩橋 永悟
- 出版者
- Waseda University
- 巻号頁・発行日
- 2005-02-02
データマイニング分野における頻出パターン抽出問題では,大規模なデータに対して処理を行うため,メモリ容量不足やディスクアクセス増加といった問題に直面する.このようなリソース面の制約を緩め,現実時間で頻出パターンを抽出するために,様々な並列化手法が提案されている.しかし,従来の並列化手法の多くは全ての頻出パターンを抽出するため,結果として莫大な数のパターンが抽出されてしまう.大規模なデータに対しても,ユーザにとって解析する負担が少ない,冗長性を軽減したパターンを高速に提示する並列化手法が必要である.そこで,本稿では,FPcloseに基づき頻出飽和パターンを並列抽出する手法を提案する.さらに,並列化において問題となる,タスク負荷の偏りを平坦化する手法を提案する.提案した手法をPCクラスタ上で実装し,評価を行った結果,最小サポートを2%と設定した場合,32PU投入時に30.9倍の速度向上を得た.