著者
滝澤 真一朗 松田 元彦 丸山 直也
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2014, pp.1-9, 2013-12-31

計算科学アプリケーションにはアンサンブル計算や多数のデータ処理等,多数のタスクをワークフロー実行できるものが多くある.我々は大規模並列システムで実行されている計算科学アプリケーションのワークフロー実行パターンを抽出し,MapReduce プログラミングモデルにてワークフローを構築するための機能要件を精査した.その機能要件を満たすべく,MapReduce 処理系 K MapReduce に追加機能として実装した.計算科学アプリケーションワークフローの MapReduce 実装事例として,レプリカ交換分子動力学法シミュレーション,ゲノム変異解析アプリケーションを実装した.MapReduce を用いない実装との比較評価を行った結果,両者にて性能面での優位性を,後者では記述面での優位性も確認した.
著者
寒川 光
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2014, pp.57-64, 2013-12-31

数値計算は浮動小数点演算によって実装されてきた.そのためアルゴリズムは,丸め誤差を制御する方法を取り入れつつ発達した.一方,有理数計算は,計算機科学の黎明期から研究されてきたが,数値計算には,計算機の性能が不十分であったため,実用的な製品としての実装は少ない.初代スパコン CRAY-1 と現在最速のスパコンを比較すると 1 億倍以上の性能差がある.並列システムの計算能力の発展が続くなら,浮動小数点演算による数値計算は,徐々に有理数演算に置き換えられてゆく可能性がある.有理数計算は正確な計算結果を提供するので,現在の数値計算のアルゴリズムの内,丸め誤差の影響を制御する部分は不要になる.浮動小数点計算では主流である 「直交化を基礎とする解法」 は,有理数計算では桁数が膨大になるため,直接的な解法に劣る.このため有理数計算による数値計算アルゴリズムのメニューは,浮動小数点演算用のものと異なる.本論文では,線形代数計算を有理数計算で行うためのプログラミング環境を,多桁整数演算を実現する階層,有理数演算を実現する階層の上に,BLAS に対応する 「有理数 BLAS」 階層を構築することで,既存の浮動小数点計算用のプログラムを,有理数計算環境に移行する方法を提案する.
著者
岡田真人
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2014, pp.23-24, 2013-12-31

実験や観測によって得られるデータを少数の説明変数で記述することを目的とする 「モデリング」 は自然科学の重要なアプローチの一つである.スパースモデリングは,高次元データからの説明変数の自動抽出を最適化問題の形に定式化する.本講演では,スパースモデリングの適用例を紹介し,ハイパフォマンスコンピューティングとスパースモデリングの関係を述べる.
著者
今出 広明 平本 新哉 三浦 健一 住元 真司 黒川 原佳 横川 三津夫 渡邊 貞
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2012, pp.93-100, 2012-01-17

本論文では,RMATT(Rank Map Automatic Tuning Tool) における実行時間の高速化について述べる.RMATT は MPI アプリケーションにおけるランク配置を最適化することで通信処理時間を短縮することができるが,実行に長時間を要することが問題であった.この問題を解決するため,変更されたランクの通信処理のみを再計算する他,通信しないランク間のテーブル作成を省くことで計算量を大幅に削減する方法を開発した.評価の結果,4,096 ランクの Allgather bruck アルゴリズムの最適化に従来 16 時間かかっていた実行時間を 7.4 分に短縮できることを確認した.また,NAS Parallel Benchmark におけるクラス B,プロセス数 1,024 の CG に本 RMATT を適用し,京コンピュータ上において CG の実行時間を 7% 削減することを確認した.
著者
伊藤 祥司 片桐 孝洋 櫻井 隆雄 猪貝 光祥 大島 聡史 黒田 久泰 直野 健
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2012, pp.117-126, 2012-01-17

前処理付き BiCGStab(PBiCGStab) 法の改善アルゴリズムを提案する.前処理付き BiCG 法に CGS 法の導出手順を適用すると,CGS 法の合理的な前処理付きアルゴリズムが構成される.この手法を PBiCGStab 法へと拡張するに当たり,BiCGStab 法に現れる MR 演算に対し論理面からの新たな考察を行い,適用できることを示した.本提案アルゴリズムが従来の PBiCGStab よりも合理的であることと,数値実験により本提案の有効性を示す.
著者
椋木 大地 高橋 大介
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2011, pp.148-156, 2011-01-11

本研究では 4 倍・8 倍精度演算に対応した BLAS (Basic Linear Algebra Subprograms) 関数を GPU (Graphics Processing Unit) 向けに実装し評価を行った.4 倍・8 倍精度演算には double 型倍精度数を 2 つ連結して 4 倍精度数を表す double-double (DD) 型 4 倍精度演算,および 4 つ連結して 8 倍精度数を表現する quad-double (QD) 型 8 倍精度演算を用いた.NVIDIA Tesla C2050 による性能評価では,Intel Core i7 920での同一処理と比べ,4 倍精度 AXPY が約 9.5 倍,8 倍精度 AXPY が約 19 倍高速化された.また 4 倍精度 GEMM は CPU に比べて約 29 倍,8 倍精度 GEMM は約 24 倍の高速化を達成した.さらに Tesla C2050 では 4 倍精度 AXPY が倍精度演算の高々 2.1 倍の演算時間となり,GEMV,GEMM でも倍精度演算に対する計算時間の増大が CPU の場合と比べ大幅に削減された.一方で PCI-Express (PCIe) によるデータ転送時間を考慮した場合,倍精度 GEMM は PCIe データ転送性能に律速される傾向が見られたが,4 倍・8 倍精度 GEMM ではこれがほぼ解消されることが示された.本論文では 4 倍・8 倍精度 BLAS 演算が GPU に適しており,CPU に比べ実用的な性能が得られることを示す.
著者
鯉渕 道紘 松谷 宏紀 天野 英晴 D.FrankHsu Henri Casanova
雑誌
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻号頁・発行日
vol.2012, pp.85-92, 2012-01-17

メニーコア並列アプリケーションと高性能計算機の大規模化が進むにつれて性能への通信遅延の影響が大きくなってきている.そのため,高性能計算システムでは高次元スイッチを用いた低遅延トポロジの活用が重要となりつつある.そこで,本研究では,典型的なトポロジにランダムなショートカットリンクを加えたトポロジを探求する.N 台の次数kのスイッチで構成されたトポロジにおいてランダムなショートカットリンクは,直径を理想値である logk N に近づけ,平均距離,トポロジの拡張性,耐故障性をスモールワールド効果により改善する.グラフ解析の結果より,ランダムなショートカットリンクは,規則的にショートカットリンクを付加した場合と比べて,直径と平均距離を最大 8 倍改良することが分かった.また,フリットレベルシミュレーションの結果より,ランダムなショートカットリンクは遅延を 35% 削減し,ハイパーキューブなどの同じ次数を持つ規則的なトポロジと同程度のスループットを達成した.