著者
清水 敏行 建部修見 工藤 知宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.6, pp.23-34, 2004-05-15

最近のクラスタ向け計算機,とりわけラックマウント型では,限られた容積に多くの機器が実装されているため,それを冷却するファンの振動によってHDD等のデータ転送性能が低下する問題が生じていることが分かった.従来より外部からの振動によってHDD の転送性能が影響を受けることは知られていたが,我々の実験によりHDD の仕様以下の強さの振動であっても特定の周波数の振動が連続的に加わると20?90%の転送速度の低下が見られ,ときにはHDD が回復不能なダメージを被る場合があることが明らかとなった.本稿ではこの問題について紹介し,HDD の転送速度の周波数特性を詳細に調べることで原因の推定を試みる.またその結果をふまえて,解決の一手法について述べる.Performance of latest HDDs can be affected by the mechanical vibration of the cooling fan. This phenomenon is often observed in recent low height rack-mounted type computers, which have number of components in its limited capacity of the enclosure. The head positioning servo of latest HDD's are designed considering the effect of vibration. However, we found that the transfer rate of HDD is sometimes degraded by the continuous vibration even when the magnitude of the vibration is smaller than the specified allowance. Moreover, such vibration cause an unrecoverable damage in some cases. This paper introduces such phenomena, and tries to investigate the cause of the phenomena by analyzing frequency response characteristics of the HDD transfer rate in detail. This paper also discusses ways to avoid these problems.
著者
芹沢 和洋 建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-170, no.9, pp.1-12, 2019-07-17

深層ニューラルネットワークに使用される訓練データの規模は年々増加しており,深層ニューラルネットワークの訓練処理において訓練データの read I/O は無視できないボトルネックになりつつある.ノードローカルストレージとして搭載された SSD などの I/O が高速なストレージデバイスを使用することで read I/O の高速化は可能であるが,HPC クラスタにおいては毎回訓練データセットのファイルコピーが毎回必要であるという課題がある.また,HPC クラスタの計算ノードからネットワークを経由してアクセス可能な外部ストレージは訓練データセットをファイルコピーせずに訓練処理を開始できるが,SSD ほどのバンド幅は見込めない.本研究では,ノードローカルストレージと外部ストレージを組み合わせて使用することで事前に訓練データセットのコピーをせずに read I/O を高速化する手法を提案する.提案手法を機械学習フレームワークである Chainer に実装し,Chainer が提供する並列に訓練データを read する機能をベースラインとして,read I/O 性能を自作したベンチマークによって比較したところ,Lustre に訓練データを配置した場合のベースラインよりも,より少ないプロセス数を使用して最大で約 20% 高い read I/O 性能を達成できることを示した.データ並列訓練における 10 epoch の訓練時間の比較では,訓練データセットのファイルコピーに要する時間を考慮するとベースラインと SSD の組み合わせよりも訓練処理時間を短縮できることを示した.一方で,データ並列訓練においては read I/O ではなく AllReduce による処理時間が律速するため,ストレージ間の I/O 性能が処理時間に反映されにくいという,データ並列訓練の所要時間における特性を明らかにした.
著者
神谷 孝明 川島 英之 建部 修見
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2015-ARC-215, no.18, pp.1-10, 2015-05-19

本研究では ioDrive をストレージデバイスとする時にふさわしい WAL プロトコルとして P-WAL を提案する.まず,ioDrive においては並列ランダムライト時の I/O アクセス性能がシーケンシャルライトよりも高速になることを示す.そのような状況において,I/O アクセスと排他制御処理による性能劣化の問題に対処するために,P-WAL はそれぞれのログライタが専用の領域にログを書き込む,並列ログ書き込み方式を採用する.P-WAL の評価を行うため,数種類のモジュールからなるプロトタイプのトランザクションマネージャを設計する.これを用いて,スレッド数やグループコミットのパラメータを変化させ,従来方式の WAL と P-WAL の性能比較を行う.スレッド数を 16,グループコミットのパラメータを 16 にした時,P-WAL は 172,018 tps の性能を発揮し,従来方式と比べて,3.23 倍の性能向上を達成することを示す.
著者
神谷 孝明 川島 英之 星野 喬 建部 修見
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.10, no.1, pp.24-39, 2017-03-22

本研究はフラッシュストレージをログ用のストレージデバイスとするときにふさわしいWALプロトコルとしてP-WALを提案する.フラッシュストレージは複数のメモリチップに対して並列にアクセスすることで高い性能を発揮する.P-WALはフラッシュストレージの特性を活用し,各ワーカが専用の領域にログを書き込む並列ログ書き込み方式を用いる.この方式により従来の直列WAL方式で発生する,排他制御処理とストレージI/Oにともなう性能低下問題を解決する.P-WALをトランザクションシステム上で実装し,性能評価を行った.その結果,P-WALは直列WAL方式に対してマイクロベンチマークで10.0倍,TPC-Cベンチマークにおいて2.3倍の性能向上を示した.This paper proposes a new WAL protocol, P-WAL. We first demonstrate that parallel write operations well perform on a flash storage. P-WAL exploits the features of the flash storage. P-WAL lets each worker writes log records to its dedicated storage space. This design eliminates both the contentions on WAL buffer and the inefficient I/O operations where the conventional sequential WAL method suffers from. We design and implement P-WAL on a prototype transaction manager, and evaluate it with benchmarks. The result of experiments showed that P-WAL outperformed the conventional WAL. The improvement factors were 10.0 on micro-benchmark and 2.3 on TPC-C benchmark respectively.
著者
建部修見 森田 洋平 松岡 聡 関口 智嗣 曽田 哲之
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2001, no.77(2001-HPC-087), pp.177-182, 2001-07-25

ペタバイトスケールデータインテンシブコンピューティングのためのGridDatafarmアーキテクチャの設計と実装を行っている.Grid Datafarmは,PCクラスタのローカルディスクを利用した広域データ並列ファイルシステムを提供し,オンラインでペタバイト規模の大容量と,ローカルI/Oバンド幅を利用したスケーラブルなI/Oバンド幅が特徴である.Gfarm並列I/O APIおよびGfarmコマンドにより,単一システムイメージの操作を可能とする.ファイルの複製,ヒストリによる再生成などにより,自動的な耐故障性,負荷分散も目指している.
著者
建部修見 児玉 祐悦 関口 智嗣 山口 喜教
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.5, pp.2246-2255, 1999-05-15
被引用文献数
5

MPIはpoint-to-point通信における対応する送信と受信のマッチングに関するコストが大きく 通信遅延が大きくなる原因となっている. 本研究では ノンブロッキング受信が先行発行される通信パターンにおいて 送信時に受信側に問い合わせることなくリモートメモリ書き込みにより送信を行う方式を提案し 高並列計算機EM-Xに実装しその評価を行った. その結果 通信遅延15.3μsec スループット31.4MB/sを達成し 他MPPに実装されているMPIに比べ優位な性能を示した. 本手法は 他システムにおいても適応可能であり ハードウェアスペックどおりの低遅延 高スループットを得るためには重要な方式と考えられる.MPI point-to-point communication is a basic operation, however it requires runtime-matching of send and receive that causes to reduce performance. This paper proposes a new approach to send messages by remote memory write without inquiring of the receiver under a communication pattern such that the corresponding nonblocking receive is issued in advance. Basically, this approach makes it possible to gain low latency and high bandwidth as the hardware specification. MPI-EMX, our implementation of the MPI on the EM-X multi-processor, achieves a zero-byte latency of 15.3 μsec and a maximum bandwidth of 31.4 MB/s, which can compete with commercial MPPs. This approach to reduce communication latency is widely applicable to other systems and is quite a promising technique for achieving low latency and high bandwidth.
著者
村田 直郁 川島 英之 建部 修見
雑誌
研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:21888795)
巻号頁・発行日
vol.2016-OS-137, no.8, pp.1-11, 2016-05-23

分散データベース管理システムにおいて外部キー制約や二次索引,実体化ビューの管理を行うための高性能な処理方式として Read Atomic Multi-Partition(RAMP) トランザクションがある.RAMP トランザクションは隔離性を緩和することで高性能化を実現した研究であるが,それを先進的デバイスによって高性能化する技法は未開拓である.そこで,本研究では高性能インターコネクトである InfiniBand を利用し,Remote Direct Memory Access(RDMA) の機能を用いて RAMP トランザクションを高速化する手法を提案する.まず,RDMA-Write による GET/PUT オペレーションの高速化手法として GET+/PUT+方式を提案する.続いて,RDMA-Read による更なる GET オペレーションの高速化手法として GET*方式を提案する.提案手法の評価のため,プロトタイプ In-Memory Key-Value Store を実装する.Yahoo! Cloud Serving Benchmark を用いた実験において,従来方式と比べて最大 2.67 倍の高速化を達成することを示す.
著者
大辻弘貴 建部修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012, no.29, pp.1-6, 2012-12-06

大容量のデータ処理にあたって,高性能な共有ファイルシステムが求められている.共有ファイルシステムにおいては,アプリケーションはネットワークを介してデータアクセスを行うが,この部分がボトルネックになると十分にシステムの性能を発揮することが出来ない.従って,高性能なネットワークを効率よく使用する必要がある.そこで,ここでは, Infiniband に備わる RDMA (Remote Direct Memory Access) を用い,低オーバヘッドのファイルアクセスを行う.また,大容量データの保管にあたり,ストレージ領域を節約するための冗長記録についても評価を行った.さらに,冗長記録されたデータをストレージノードの負荷分散に用いる方法についても提案し,それを評価した.
著者
鷹津冬将 平賀弘平 建部修見 GabrielAntoniu
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.22, pp.1-7, 2013-02-14

広域分散ファイルシステムでは,クライアントの場所にかかわらずファイルシステムにアクセスすることができる.しかしながら,既存の広域分散ファイルシステムは特定のメタデータサーバへのアクセスが必要であり,クライアントとメタデータサーバ間の遅延の大きさが性能を左右している.本稿では,拠点ごとにメタデータサーバ等を設置し,クライアントが行うすべてのオペレーションを拠点内で完結させる広域分散ファイルシステム BlobSeer-wan/HGMDS の設計・実装を行い,評価を行った.ひとつの拠点内における評価では,ほぼすべてのオペレーションについてクライアントが 8 ノードの場合の際に BlobSeer-wan/HGMDS が Gfarm に比べ高い性能を示した.特にファイルを作成しデータを書き込み同期を行う評価ではクライアントが 8 ノードの場合に Gfarm の性能の 10.9 倍の性能を示した.また,拠点間の遅延が大きい二つの拠点における評価においても,各拠点における性能差が小さいこと,及びクライアントのノード数に比例して BlobSeer-wan/HGMDS の性能が高くなることを示した.拠点ごとのクライアント数が 4 ノードの際における BlobSeer-wan/HGMDS の各拠点の結果の和の値は Gfarm のその値に比べ,Directory Creation で 2.5 倍,Fire Creation で 1.1 倍,Directory stat で 1.5 倍,File stat で 2.5 倍,File removal で 3.7 倍の値を示した.
著者
岡本 高幸 朴 泰祐 佐藤三久 建部修見
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.121-126, 2006-07-31

家庭やオフィスの遊休PCは潜在的に大きな計算能力を有しており,これらを接続して効率的に利用することができれば非常に大きな計算資源となる.しかし,NATやファイアウォールの中にあるこれらのPCを相互に接続するには,物理的なIPアドレスに依存しないノード識別子によるルーティング処理やUPnP,hole punchingなどのNAT越えの技術が必要である.これらをアプリケーションごとに実装していくことは煩雑であり,P2Pアプリケーションの開発における問題となっている.そこで本稿では,アプリケーションをネットワークの物理構成から独立させ,物理ネットワークに依存せず参加するすべてのノードを等しく接続可能とするオーバーレイネットワークを提案する.そして,その実現に必要なNAT越え技術の一つであるUDP hole punchingについてのテストシステムを作成し,市販の家庭用ルータを用いて性能評価を行った.UDP hole punchingと独自のライブラリを使うことによってTCPと比べて2 割程度のスループットの低下でNATを越えて直接通信が実現できることを確認した.An enormous number of PCs at home or office potentially implies a great amount of computation power when they are out of the work, and there is an opportunity to utilize their power for a large scale computation. However, these machines usually exist behind the NAT or firewall and it requires various techniques to access and connect them, such as logical naming independent from the original IP addresses, efficient routing, or NAT traversing with UPnP or UDP hole punching. It is troublesome to apply these techniques adequately to each application, and this is a hazard in the development of P2P application. In this paper, we propose an overlay network to connect all attending nodes in logically flat layer independently from their physical network in order to encourage the easy development of various P2P applications. In our system, we implement a generic communication library based on UDP hole punching which is one of the most common NAT traversal techniques, and evaluated the communication performance on commodity personal broadband router widely used at home. We developed an original communication layer only with UDP protocol which is basically compatible with TCP. By the direct communication through NAT box without intermediate relay server, we confirmed that our method provides a communication performance with only about 20% of performance degradation compared with TCP communication.
著者
芹沢 和洋 建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2019-HPC-168, no.25, pp.1-10, 2019-02-26

深層ニューラルネットワークの訓練には大量のデータが必要となり,訓練処理時間の長期化が問題となっている.訓練時間の短縮方法として,複数の訓練データを用いて訓練処理を行うミニバッチ訓練という手法が知られている.本研究では,訓練処理時間と関連性が考えられる,訓練処理中の GPU 利用率を最大化するという最適化手法を用いて.訓練処理時間を可能な限り最短にすることができるミニバッチサイズを決定する方法を提案した.提案手法を深層学習フレームワークである Chainer を用いて実装した.Cifar 100 と ImageNet の 2 種類の画像データセットおよび VGG 16 と ResNet 50 の 2 種類の畳み込みニューラルネットワークを用いて提案手法の評価を行った結果,GPU 利用率のみを最大化するアプローチでは訓練処理速度を最短とするミニバッチサイズを決定することは困難であるという結論となった.一方で,データセットごとに訓練処理中の GPU 利用率とミニバッチサイズとの間の相関性に異なる傾向が観察され,データサイズに起因するボトルネックが GPU 利用を阻害している可能性が発見された.
著者
建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2017-HPC-162, no.6, pp.1-5, 2017-12-11

ストレージ性能はアクセスパターンにより大きく性能が変わり,多くの尺度が考えられる.IO-500 ベンチマークは HPC における典型的なアクセスパターンのベンチマーク集合で,性能値を幾何平均により一つのスコアとする.今後の標準的な IO ベンチマークとして期待されるものである.本研究では,IO-500 ベンチマークにより,Oakforest-PACS のストレージシステムを評価する.ファイルキャッシュシステムの評価では,個別ファイルの書込で 746 GiB / s,単一ファイルの書込で 600 GiB / s であった.IO-500 のスコアは 101.48 であり,2017 年 11 月の第 1 回目のリストで第 1 位であった.
著者
神谷 孝明 川島 英之 星野 喬 建部 修見
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.10, no.1, pp.24-39, 2017-03-22

本研究はフラッシュストレージをログ用のストレージデバイスとするときにふさわしいWALプロトコルとしてP-WALを提案する.フラッシュストレージは複数のメモリチップに対して並列にアクセスすることで高い性能を発揮する.P-WALはフラッシュストレージの特性を活用し,各ワーカが専用の領域にログを書き込む並列ログ書き込み方式を用いる.この方式により従来の直列WAL方式で発生する,排他制御処理とストレージI/Oにともなう性能低下問題を解決する.P-WALをトランザクションシステム上で実装し,性能評価を行った.その結果,P-WALは直列WAL方式に対してマイクロベンチマークで10.0倍,TPC-Cベンチマークにおいて2.3倍の性能向上を示した.
著者
建部修見 曽田 哲之
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2007, no.122(2007-HPC-113), pp.7-12, 2007-12-07

Gfarm v2ファイルシステムは,小規模環境から大規模PCクラスタ,広域分散環境までスケールすることを目指した広域分散ファイルシステムである.コモデイテイの利用,ファイル容量の動的増減,ファイル複製による高信頼性,分散アクセスによる高性能化に特徴がある.さらに,ファイルアフィニティを利用することにより,スケーラブルで効率的な分散データ処理も可能となる.本論文では,Gfarm v2の実装について述べると共に性能評価を行う.
著者
鷹津冬将 平賀弘平 建部修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-143, no.1, pp.1-7, 2014-02-24

膨大なデータを管理するために分散ファイルシステムが注目されている.分散ファイルシステムのストレージノードでは一般にオブジェクトストレージを使うことによりデータをデバイス上で管理する.ハードディスクよりも高速で汎用的な不揮発性デバイスが登場した今日,オブジェクトストレージにおいてもこのような不揮発性デバイスに適した設計が求められている.本稿では,これまでに開発してきたオブジェクトストレージにおける課題と,アクセス性能を高めたオブジェクトストレージの設計と実装,評価について述べる.この評価においては,提案するオブジェクトストレージがオブジェクトの書き込みだけでなく読み込みにおいても高いアクセス性能があることを示した.
著者
鷹津 冬将 建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-133, no.17, pp.1-8, 2012-03-19

本稿では,SSD などの高速なストレージにおける効率的なファイルシステムの実現に向けて,Log Structured File System をベースにストレージへの書込が逐次書込となるよう mylfs の設計を行い、プロトタイプ実装を用い様々なアクセスパターンによる評価を行った。逐次書込の評価では、mylfs は raw device の性能に対し、HDD で書込は 94%、読込は 97% の性能を達成し、SSD で書込は 79%、読込は 98% の性能を達成した。ファイル更新の評価では、逐次更新、ランダム更新ともに mylfs は他のファイルシステムに比べ高い性能を示し、もっとも性能の良かった ext3 と比較して、逐次更新では HDD で 138%、SSD で 121%、ランダム更新では HDD で 572%、SSD で 135% の性能を達成した。
著者
田中 昌宏 建部 修見
出版者
宇宙航空研究開発機構
雑誌
宇宙航空研究開発機構研究開発報告 (ISSN:13491113)
巻号頁・発行日
vol.11, pp.67-75, 2012-03

大規模な科学データ処理のため,計算機クラスターによる高性能な並列処理が必要とされている.特別な並列プログラミングを必要とせずにこれを実現するため,私たちはワークフローシステムPwrake を開発している.Pwrake はRake というビルドツールをベースにしており,これによりプログラミング言語を活用した高度な科学ワークフロー定義が可能となる.Rake に並列分散機能およびGfarm ファイルシステムのサポート機能を拡張したものがPwrake である.Pwrake の性能評価のため,天文画像処理ソフトウェアMontage のワークフローをRake で記述し,Pwrake を用いて実行時間を測定した.Gfarm で実行した結果はスケーラブルな性能向上を示し,ローカルストレージの利用を高めることで性能が14% 向上した.さらに2 拠点のクラスタを用いた測定においてもスケーラブルな性能向上を達成した.
著者
佐藤 三久 朴 泰祐 建部 修見 天笠 俊之 櫻井 鉄也 山本 有作 高橋 大介 北川 博之
出版者
筑波大学
雑誌
基盤研究(A)
巻号頁・発行日
2005

P2Pグリッドとは、従来、各研究組織にある計算資源を共有することが目的であったグリッド技術を、P2P技術を活用しオフィスおよび個人のPCなどの潜在的な計算資源をグリッドの計算資源として活用するものである。本研究の目的は、期待される大量の計算資源による大容量コンピューティングのためのP2Pグリッド基盤を構築・利用する技術を確立し、その有効性を検証することである。1. P2P環境の潜在的な計算資源をグリッドの計算資源として活用するために、多くのPCで利用されているWindowsにおいてLinuxバイナリを実行するためのシステムBEEとUDPによるファイアウォール越えを用いたP2Pオーバーレイネットワークを開発した。さらに、P2P環境における認証機構として、匿名相互証明書とP2P通信を用いる認証方式AUBReX、他のジョブスケジューラと相互に協調し資源を共有する機構について開発した。2. 大容量コンピューティングのプログラミングモデルとして、RPCモデルから広域ネットワーク上の大容量データを効率的に扱うためのデータレイヤOmniStorageを開発し、それを拡張し、多数のノードに分散配置された大量データに対して、グローバルなデータ並列操作を行うプログラミング環境を提案した。また、大規模スケーラブルP2PにおけるXMLデータ管理について、MLデータの内容による検索に着目し,P2Pネットワーク上でXMLデータのキーワード検索を可能にする手法を考案した。3. P2Pグリッド向きのアルゴリズムとして、複素積分を用いた非線形固有値計算アルゴリズムや前処理手法を開発した。また、P2Pグリッドの有望な高性能な計算資源として、ヘテロジーニアスマルチコアであるCellプロセッサを取り上げ、この資源を利用するための数値計算ソフトウエアを実装した。
著者
鈴木 克典 建部 修見
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2009, no.14, pp.49-54, 2009-02-19

本稿は我々が想定する並列ファイル転送システムにおける,ファイル転送タスクのスケジューリングアルゴリズムに関する提案である.想定システムはグリッド環境においてクラスタ間でファイル転送を行うものであり,各ノードに複数の複製が存在することを仮定する.このとき適切な複製選択,転送順序の決定,複製の動的作成を行うことで,最適な転送時間を求める.我々は,この問題を定式化し,リストアルゴリズムを基本とした手法として実装した.提案手法を評価した結果,特定のノードにのみにファイルが偏って分布している場合でも予想転送時間を短縮できることを確認した.We present a task scheduling algorithm of the parallel file transfer system. It is asuumed that the system does file transfer to and from clusters in grid environment, and two or more replicas exist in each cluster. In this situation, to optimize the transfer time, proper transfer scheduling including replica selection and dynamic replica creation should be investigated. We build a model to solve the problem and implement algorithms based on the list-algorithm. Performance evaluation shows that the proposed replica selection algorithm and the replica creation algorithm provide better result than a simple list scheduling in unevenly file distributed case.