- 著者
-
山田 浩之
合田 和生
喜連川 優
- 出版者
- The Institute of Electronics, Information and Communication Engineers
- 雑誌
- 電子情報通信学会論文誌 D (ISSN:18804535)
- 巻号頁・発行日
- vol.J97-D, no.4, pp.774-792, 2014-04-01
並列データ処理系であるHadoopにおいては,近年Hiveをはじめとする上位層ソフトウェアの充実が見られ,当該処理系は大規模データの解析基盤として広く用いられるようになりつつある.同時に,元来のMapReduceなるデータ処理に特化し対象データの全走査を前提とするという設計を見直し,データ処理の効率性を高めるべく,索引やパーティショニング等の各種のデータベース技術を取り込む方向性が見られる.本論文では,Hadoopをはじめとする並列データ処理系において,関係データベースエンジンで試みられているアウトオブオーダ型実行方式を拡張して適用することにより,データ処理の一層の高速化を目指す.アウトオブオーダ型実行方式を適用することにより,並列データ処理系の各々の計算機は,並列データ処理の実行時にタスク分解を行い,分解されたタスクにおいて自らの二次記憶並びにネットワークを介した他の計算機の二次記憶への入出力を行い,入出力の完了に伴い関連する演算を実行する.すなわち,並列データ処理系全体の入出力を非同期化する.データインテンシブな並列データ処理においては,入出力に性能が律速されることが多く,当該入出力を非同期化することにより,従来型の処理系に比して,特にデータセット空間の一部のデータを対象とするデータ処理において,飛躍的な高速化が期待される.本論文では,著者らが試作を行ったHadoopをベースとするアウトオブオーダ型並列データ処理系Hadooodeの構成法を明らかにするとともに,20台の計算機からなるクラスタマシンにおいて当該試作を用いて行った性能評価実験を示し,その有効性を明らかにする.