著者
谷村 勇輔 的野 晃整 小島 功 田中 良夫 関口 智嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.74, pp.223-228, 2008-07-29

ユビキタスコンピューティングの世界で用いられる"ucode"を管理するシステムに RDF-DB (RDF database) を利用するには,スケーラブルな RDF-DB を構築する技術の確立が必要である.そこで,我々は RDF-DB のバックエンドに分散ストレージと MapReduce フレームワークを用いた並列データ処理を利用することで,膨大なデータに対する多数の問合せに対応したシステムの構築を試みている.本稿では,まず MapReduce を実装する Hadoop において,データベースの結合演算を行うプログラムの性能を評価した.次に, Hadoop と RDF-DB のそれぞれの特徴に基づき,データベースの基本的なデータ格納手法である Vertical Partitioning,Horizontal Partitioning,Sorting をもとに, MapReduce フレームワークにおける RDF-DB に適したデータの分散格納方法を提案する.そして,約 274 万のトリプルに対して, 2 または 3 組の predicate を選択条件とし, subject に対する結合演算を行う問合せを用いて評価実験を行った.これらを通じて,最終的に構築しようとしているシステムの設計を行う上での基本的な知見を得た.Research for scalable RDF-DB (RDF database) is highly expected today, in order to construct the "ucode" management system in the ubiquitous world. Our approach is to use parallel data processing technology with distributed storage and MapReduce framework, as a backend of RDF-DB. In this report, performance of the JOIN operation in the database domain was evaluated on the Hadoop cluster, in which MapReduce framework is provided by Hadoop. Then data storing/distributing methods based on conventional Vertical Partitioning, Horizontal Partitioning and Sorting, are proposed so that they take advantages of the Hadoop behaviors and the RDF-DB features. The proposed methods were evaluated by the experiment with the query which selects the RDF triples by 2 or 3 predicates and joins the triples on the subject from 2.4 millions' triples. Through the examinations, the design principle of our developing scalable RDF-DB system was confirmed.
著者
的野 晃整 小島 功
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.1, pp.33-45, 2009-03-31

本稿では,分散環境における RDF 問合せ処理の効率化を目指し,ブルームフィルタを拡張して転送量を減少させる手法を提案する.RDF はメタデータ記述のための枠組みで,近年様々な応用分野に広く利用されており,各地でボトムアップに作成・管理されている.それらの分散した RDF データに対して,横断的・包括的な問合せを行いたいという要求が高まっている.これまで,分散 RDF データ検索に関する研究はいくつか提案されているが,それらの多くは,トップダウンに配置した RDF データに対する処理手法やトリプルパターンマッチングのような単純な検索に関する研究が主であった.我々が提案する手法のような,ボトムアップに作成された RDF データに対して,結合や和集合などの演算を含む高度な問合せ処理の効率化を目指した研究は,これまでほとんど行われていない.提案手法では RDF トリプルに対応した 3 次元のブルームフィルタを用い,問合せ処理時にブルームフィルタ間でビット演算を行うことで,リモート RDF データへアクセスする前に,そのデータが解に含まれているかどうかを判断することができるため,データ転送量を削減でき,処理時間の減少につながる.我々は,RDF 問合せ言語 SPARQL を処理するプロトタイプシステムを作成し,分散環境における RDF データ問合せ処理の効率が向上することを実験によって確認した.
著者
油井 誠 小島 功
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.4, no.4, pp.11-33, 2011-12-28

本論文では無共有計算機設計においてデータウェアハウス処理を行ううえでタプルの再分散の問題に着目し,タプルの再分散を必要としない並列データベース構成法を述べる.特にΦハッシュ分割と呼ぶ,タプルの再分散を必要としないテーブル分割手法を提案する.Φハッシュ分割ではノード数に対するスケーラビリティを維持しながら,TPC-Hなどの複雑なデータ分析問合せを並列処理することができる.TPC-HのSF=100による評価実験で,提案手法がMapReduceに基づく競合システムHiveに対して顕著な性能面での優越(3.1倍~19.9倍)があることを示すとともに,我々の問合せ処理手法の現実装における有効範囲と制限に考察を与える.
著者
後藤康路 油井誠 横山昌平 小島功 石川博
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.16, pp.1-6, 2012-11-12

本論文では, KDDcup 2012 track2 の商用検索エンジンの大量検索ログからの広告クリック率予測タスクを MapReduce 処理系である Hadoop 上で確率的勾配降下法 (Stochastic Gradient Descent) を用いて解いた事例を示し,大規模機械学習を実践的システムに適用したことにより得られた知見を示す.本論文の核となる貢献は,確率的勾配降下法による大規模なオンライン学習を Hive/Pig 上でそれぞれ実現した事例を示し,課題となる問題とその対処法などを明らかにすることにある.また, Hadoop 操作系として代表的な Hive と Pig について,それぞれの特徴,言語体系の違いによる学習器の実装への影響,性能差を述べる.