著者
油井 誠 小島 功
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.4, no.4, pp.11-33, 2011-12-28

本論文では無共有計算機設計においてデータウェアハウス処理を行ううえでタプルの再分散の問題に着目し,タプルの再分散を必要としない並列データベース構成法を述べる.特にΦハッシュ分割と呼ぶ,タプルの再分散を必要としないテーブル分割手法を提案する.Φハッシュ分割ではノード数に対するスケーラビリティを維持しながら,TPC-Hなどの複雑なデータ分析問合せを並列処理することができる.TPC-HのSF=100による評価実験で,提案手法がMapReduceに基づく競合システムHiveに対して顕著な性能面での優越(3.1倍~19.9倍)があることを示すとともに,我々の問合せ処理手法の現実装における有効範囲と制限に考察を与える.
著者
後藤康路 油井誠 横山昌平 小島功 石川博
雑誌
研究報告データベースシステム(DBS)
巻号頁・発行日
vol.2012, no.16, pp.1-6, 2012-11-12

本論文では, KDDcup 2012 track2 の商用検索エンジンの大量検索ログからの広告クリック率予測タスクを MapReduce 処理系である Hadoop 上で確率的勾配降下法 (Stochastic Gradient Descent) を用いて解いた事例を示し,大規模機械学習を実践的システムに適用したことにより得られた知見を示す.本論文の核となる貢献は,確率的勾配降下法による大規模なオンライン学習を Hive/Pig 上でそれぞれ実現した事例を示し,課題となる問題とその対処法などを明らかにすることにある.また, Hadoop 操作系として代表的な Hive と Pig について,それぞれの特徴,言語体系の違いによる学習器の実装への影響,性能差を述べる.
著者
油井 誠 森嶋 厚行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.44, no.12, pp.11-22, 2003-09-15
被引用文献数
3

我々はオープンソースのRDBMSであるPostgreSQLとそのXML拡張であるXMLPGSQLを利用し,多機能なXMLデータベース環境を構築した.本環境ではXMLをPostgreSQLに格納し,XMLとしてアクセス可能なインタフェース群を提供する.本環境が多機能であるとは,次の機能をすべて持つことを指している.(a)DOM準拠関数によるアクセス機能,(b)XPathによるアクセス機能,(c)格納されたXMLの更新機能.機能(a),(c)はすでにXMLPGSQLが提供しているので,構築にあたっては特に機能(b)の実装を行った.また,この機能の追加にともない,機能(c)の変更も行った.本論文ではこれらについて説明する.本論文の貢献は,研究コミュニティが開発した成果などを,オープンソースRDBMSに適用した事例を示すことである.本環境はさらに次の特徴を持つ.(1)現在まで別々に行われていた研究や開発の成果などを組み合わせ,多くの機能をそれ1つで提供するオープンソースの環境を提供する.(2)研究プロジェクトではあまり重要視されてこなかった詳細機能の実装も行う.(3)PostgreSQL専用とし,構築にあたってはユーザ定義関数などの,必ずしもすべてのRDBMSがサポートしていない機能も利用する.We developed a multifunctional XML database environment using PostgreSQL, an opensource RDBMS and XMLPGSQL, an XML extension. The environment decomposes XML documents into fragments and uses PostgreSQL to store them in a set of relations. Users do not have to know that they are stored as relations. It provides a variety of means to access XML documents; (a) DOM functions to build and traverse XML documents, (b) XPath engine to extract information from documents, and (c) update functions to modify documents. Since XMLPGSQL provides functions (a) and (c), our focus was on development of function (b) and modi fications of funcion (c). Our main contribution is to show a case where we applied the fruits of research and development activities to an opensource RDBMS. The features of the projects are as follows: (1) we combine separately-developped technologies to construct one integrated environment providing multi-functionality, (2) we implement details that tend to be ignored by research prototype systems, and (3) we do not hesitate to use PostgreSQL's features (such as user-de fined functions) to construct the environment.