著者
谷村 勇輔 的野 晃整 小島 功 田中 良夫 関口 智嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.74, pp.223-228, 2008-07-29

ユビキタスコンピューティングの世界で用いられる"ucode"を管理するシステムに RDF-DB (RDF database) を利用するには,スケーラブルな RDF-DB を構築する技術の確立が必要である.そこで,我々は RDF-DB のバックエンドに分散ストレージと MapReduce フレームワークを用いた並列データ処理を利用することで,膨大なデータに対する多数の問合せに対応したシステムの構築を試みている.本稿では,まず MapReduce を実装する Hadoop において,データベースの結合演算を行うプログラムの性能を評価した.次に, Hadoop と RDF-DB のそれぞれの特徴に基づき,データベースの基本的なデータ格納手法である Vertical Partitioning,Horizontal Partitioning,Sorting をもとに, MapReduce フレームワークにおける RDF-DB に適したデータの分散格納方法を提案する.そして,約 274 万のトリプルに対して, 2 または 3 組の predicate を選択条件とし, subject に対する結合演算を行う問合せを用いて評価実験を行った.これらを通じて,最終的に構築しようとしているシステムの設計を行う上での基本的な知見を得た.Research for scalable RDF-DB (RDF database) is highly expected today, in order to construct the "ucode" management system in the ubiquitous world. Our approach is to use parallel data processing technology with distributed storage and MapReduce framework, as a backend of RDF-DB. In this report, performance of the JOIN operation in the database domain was evaluated on the Hadoop cluster, in which MapReduce framework is provided by Hadoop. Then data storing/distributing methods based on conventional Vertical Partitioning, Horizontal Partitioning and Sorting, are proposed so that they take advantages of the Hadoop behaviors and the RDF-DB features. The proposed methods were evaluated by the experiment with the query which selects the RDF triples by 2 or 3 predicates and joins the triples on the subject from 2.4 millions' triples. Through the examinations, the design principle of our developing scalable RDF-DB system was confirmed.
著者
的野 晃整 小島 功
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.2, no.1, pp.33-45, 2009-03-31

本稿では,分散環境における RDF 問合せ処理の効率化を目指し,ブルームフィルタを拡張して転送量を減少させる手法を提案する.RDF はメタデータ記述のための枠組みで,近年様々な応用分野に広く利用されており,各地でボトムアップに作成・管理されている.それらの分散した RDF データに対して,横断的・包括的な問合せを行いたいという要求が高まっている.これまで,分散 RDF データ検索に関する研究はいくつか提案されているが,それらの多くは,トップダウンに配置した RDF データに対する処理手法やトリプルパターンマッチングのような単純な検索に関する研究が主であった.我々が提案する手法のような,ボトムアップに作成された RDF データに対して,結合や和集合などの演算を含む高度な問合せ処理の効率化を目指した研究は,これまでほとんど行われていない.提案手法では RDF トリプルに対応した 3 次元のブルームフィルタを用い,問合せ処理時にブルームフィルタ間でビット演算を行うことで,リモート RDF データへアクセスする前に,そのデータが解に含まれているかどうかを判断することができるため,データ転送量を削減でき,処理時間の減少につながる.我々は,RDF 問合せ言語 SPARQL を処理するプロトタイプシステムを作成し,分散環境における RDF データ問合せ処理の効率が向上することを実験によって確認した.
著者
濱崎 雅弘 的野 晃整 大向 一輝 Lynden Steven
出版者
国立研究開発法人産業技術総合研究所
雑誌
基盤研究(B)
巻号頁・発行日
2015-04-01

本研究では,Linked Open Data(LOD)の利活用を阻害する最大の要因であるLOD検索の困難さに対して,クエリ共有が有効であることを明らかにするため,(課題1)クエリ生成の支援に有効な共有クエリ推薦技術の研究開発,(課題2)クエリ実行の高速化に有効なクエリキャッシュ技術の研究開発,の二つの研究を実施した.既存のSPARQLエンドポイントのアクセスログ解析,プロトタイプを用いたユーザ評価,さらにはRDF 問合せ最適化のための基礎技術の開発を行った.