著者
星野 哲也 松岡 聡
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2016-HPC-153, no.4, pp.1-10, 2016-02-23

航空機の開発などに用いられる圧縮性流体解析アプリケーションには多大な演算パワーが必要とされ,近年一般的になっている演算アクセラレータを用いたスーパーコンピュータの利用が推進されている.しかし一般に,既存のアプリケーションのアクセラレータ向けの移植・最適化には多大なコストが伴うことが知られている.本稿では,実際に用いられている圧縮性流体アプリケーション UPACS へ OpenACC を適用・最適化することでその移植コストを調査し,OpenMP による移植との性能比較評価を行った.その結果,PGI コンパイラを用いた場合においては,基準となる変更なしの UPACS から 9.5 倍,OpenMP により並列化し 6CPU コアで実行した場合と比較して 15%の性能向上を得た.またさらなる高速化に向けて,ボトルネック部分の最適化の検討,CUDA Fortran の適用に向けた予備評価を行った結果を報告する.
著者
西川 武志 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.13, pp.117-126, 2007-08-15
参考文献数
12
被引用文献数
3

デジタル時刻認証はデジタルデータがある時点で『存在していた』、『改竄されていない』ということを証明する手段である。現在メインストリームである集中型タイムスタンプ手法は多数のタイムスタンプ要求が集中することに耐えることができない性能スケーラビリティ上の問題がある。したがって集中型タイムスタンプ手法は分散 DoS 攻撃に弱い。集中型タイムスタンプ手法の性能スケーラビリティ上の問題や分散 DoS 攻撃耐性がないという問題を解決するために分散時刻認証法が提唱されている。しかしながら原子時計のような高価な時刻源を用いることや信頼できる第三者による監査に由来する高コスト性は解決されていない。本論文では我々は (N,K = L+M,G) 手法を用いた TSA Grid と名付けた信頼できる高性能で頑強で安価な分散時刻認証法を提唱する。それは独立の主体によって管理されている peer-to-peer 型の時刻認証プログラムに基づいており、既存の分散時刻認証法のコストの問題を解決する。(N,K = L+M,G) 手法では、N 個の Time Stamping Units (TSU) に G 世代にわたってタイムスタンプ要求が伝搬される。各世代では L 個の信頼できる TSU と M 個のランダムに選んだ TSU からタイムスタンプが要求・応答される。G と L と行ったパラメータの導入により TSU が相互に自律的に監査すること、時刻認証の期待値の推測を可能にしている。また本論文で TSA Grid の基本的なパラメータ依存性について報告する。Digital time stamping is a technique to prove the existence of a digital data prior to a specific point in time. The centralized time-stamping scheme which is the main stream at present can not stand up to the concentration of numerous time-stamping requests. So, the centralized time-stamping scheme has vulnerability to the distributed DoS (DDoS) attack. Distributed time stamping schemes have been proposed to solve a performance scalability problem such as tolerance to DDoS attack. They still have high cost problems which are caused by a utilization of atomic clock and by audit of trusted third party. In this paper, we define a reliable, a high-performance, a robust, and inexpensive distributed time stamping scheme. It is named "TSA Grid" with (N, K = L + M, G) scheme and its scheme is based on a network of peer-to-peer time-stamping programs managed by administratively independent entities. It solves the cost problem of proposed distributed time stamping schemes. In (N, K = L + M, G) scheme, one time stamp request propagates for G generation to N Time Stamping Units (TSU). In each generation, L time stamps replies from reliable TSU and M time stamps replies from randomly chosen TSU. The G and the L parameters enabled us to expect authorized time of time-stamping. And they also enabled TSU to audit TSU themselves mutually and automatically. We also investigate basic characterisitic of parameter dependencies of the TSA Grid.
著者
藤田 浩司 松岡 聡 岩前 篤 太田 周彰
出版者
一般社団法人 日本建築学会
雑誌
日本建築学会技術報告集 (ISSN:13419463)
巻号頁・発行日
vol.25, no.60, pp.753-758, 2019-06-20 (Released:2019-06-20)
参考文献数
7

KINDAI University and various enterprises proposed a Zero-Energy-House(ZEH) called “ENEMANE R HOUSE” in ENEMANE HOUSE 2017. A real size house was built in Osaka and its environmental performance was measured in November 2017. This report presents the energy-saving and environmental technology adopted in this house and its effects. The findings show that this house achieved a ZEH status sufficiently and has excellent environmental performance.
著者
福地 健太郎 松岡 聡 堀 敦史 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.18, pp.43-48, 1998-03-05
参考文献数
10

Implicit co?schedulingはBerkeley NOWプロジェクトで提案された、大域スケジューラーを持たず、オーバーヘッドが少い・実装が容易である等の利点を持つ並列ジョブスケジューリング技法である。これまでの性能評価では実行時間の対ギャングスケジューリング比にして0.6?1.6程度の性能が出るとされているが、実用的なアプリケーションでの性能評価はなされていない。本研究では、大規模高性能クラスター上で、NAS並列ベンチマークを用いる事で、implicit co?schedulingの実践的な性能を測定した。その結果、FT,CGにおいて実行時間の対ギャングスケジューリング比にして最大2.3倍という結果を得ており、Berkeleyの評価が再現しなかった。これは、ネットワークの混雑等が原因と予測され、現在追試中である。Implicit co-scheduling is a parallel job scheduling methodology proposed by the UC Berkeley NOW project, and embodies favorable characterlistics such as lack of global schedulers, low overhead, and easy implementation. Previous literatures have claimed that overhead versus traditional gang schedulers was about a factor or 0.6 to 1.6; however, evaluations were not performed using real-life workloads. We have implemented an implicit co-scheduler on a large-scale, high-performance cluster, and used NAS parallel benchmarks to measure effective performance. There, we found that for FT and CG, the overhead versus gang scheduling can be as high as factor of 2.3, negating the Berkeley results. We conjecture that this is due to excessive network traffic, but are still in the process of perforoming additional experiments.
著者
遠藤 敏夫 松岡 聡 橋爪 信明 長坂 真路 後藤 和茂
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.43-48, 2006-07-31
参考文献数
8
被引用文献数
5

TSUBAMEスーパーコンピュータは,655ノード10480 Opteron coreと360枚の ClearSpeed SIMDアクセラレータボードを備えるヘテロ型の大規模クラスタシステムである.TSUBAMEはLinpackベンチマークで38.18TFlopsを記録し,この結果により2006年6月のTop500ランキングに7位としてランクされた.しかしその測定にはOpteronのみが使われ,アクセラレータは用いられていない.本論文は汎用CPUとアクセラレータによる不均一な環境においてLinpack 性能を得る上での課題について論じ,解決法を述べる.16ノード256 CPU coreを用いた予備実験では,アクセラレータ8枚を加えたときに8.2 %,16枚を加えたときに19%の性能向上が観測された.The TSUBAME supercomputer is a heterogeneous large-scale cluster system, which is equipped with 10480 Opteron CPU cores on 655 nodes and 360 ClearSpeed SIMD accelerator boards. The TSUBAME system has achieved 38.18TFlops with Linpack benchmark and is ranked 7th in the Top500 supercomputer ranking in June 2006, even though the measurement is done without any accelerator boards. This paper discusses issues to obtain high Linpack performance on heterogeneous systems with general purpose processors and accelerators, and describes solutions. Through preliminary experiments with 256 CPU cores on sixteen nodes, we observed +8.2% speed-up when eight accelerators are added, and +19% with sixteen accelerators.
著者
遠藤 敏夫 額田 彰 松岡 聡
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.4, no.4, pp.169-179, 2011-10-05

2010 年 11 月に稼働開始した TSUBAME 2.0 スーパコンピュータは,Intel プロセッサに加え 4,000 以上の NVIDIA GPU を備えるペタスケールのヘテロ型システムである.この TSUBAME 2.0 における Linpack ベンチマークの実行について報告する.本システムは 2CPU と 3GPU を備えた計算ノードを約 1,400 台持ち,それらはフルバイセクションのファットツリー構造を持つ Dual-Rail QDR InfiniBand ネットワークにより接続される.理論演算性能は TSUBAME 1.0 の約 30 倍となる 2.4PFlops であり,それを TSUBAME 1.0 とほぼ同じ規模の電力で実現している.Linpack ベンチマークのコード改良およびチューニングを GPU を用いた大規模システムの特性に合わせて行い,実行速度として 1.192PFlops を実現した.この結果は日本のスパコンとしては初めて PFlops を超えるものであり,Top500 スパコンランキングに 4 位にランクされた.さらに電力性能比は 958MFlops/W であり,Green500 ランキングにおいて the Greenest Production Supercomputer in the World 賞を獲得した.We report Linpack benchmark results on the TSUBAME 2.0 supercomputer, a large scale heterogeneous system with Intel processors and > 4,000 NVIDIA GPUs, operation of which has started in November 2010. The main part of this system consists of about 1,400 compute nodes, each of which is equipped with two CPUs and three GPUs. The nodes are connected via full bisection fat tree network of Dual-Rail QDR InfiniBand. The theoretical peak performance reaches 2.4PFlops, 30 times larger than that of the predecessor TSUBAME 1.0, while its power consumption is similar to TSUBAME 1.0. We conducted improvement and tuning of Linpack benchmark considering characteristics of large scale systems with GPUs, and achieved Linpack performance of 1.192PFlops. This is the first result that exceeds 1PFlops in Japan, and ranked as 4th in the latest Top500 supercomputer ranking. Also TSUBAME 2.0 has received "the Greenest Production Supercomputer in the World" prize in Green500 ranking for its performance power ratio of 958MFlops/W.
著者
松岡 聡 實本 英之 遠藤 敏夫 佐藤 仁 丸山 直也 滝澤 真一朗 佐藤 賢斗 Leonardo Bautista Gomez Jens Domke
出版者
東京工業大学
雑誌
基盤研究(S)
巻号頁・発行日
2011-04-01

エクサ(10の18乗)フロップス・10億並列のエクサスケール・スーパーコンピュータ実現には、規模の増大による故障率の増加に対応する必要がある。このための耐故障性基盤を確立することを目的として耐故障にかかわる複数の要素を対象とした複合的数理モデルの提案とそれを用いた軽量かつ高度な耐故障化手法を提案・評価した。また、開発したシステムの一部についてはオープンソースでの公開を行っている。
著者
合田 憲人 大澤 清 大角 知孝 笠井 武史 小野 功 實本 英之 松岡 聡 斎藤 秀雄 遠藤 敏夫 横山 大作 田浦 健次朗 近山 隆 田中 良夫 下坂 久司 梶原広輝 廣安 知之 藤澤克樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.49-54, 2006-07-31
被引用文献数
3

本稿では,2005年12月から2006年5月にかけて実施されたGrid Challenge in SACSIS2006において使用されたグリッド実験環境の構築・運用事例を報告する.Grid Challengeは,大学,研究所が提供する複数の計算資源からなるグリッド実験環境上で,参加者がプログラミング技術を競う大会であり,今大会では1200CPU超の計算資源からなるグリッド実験環境が運用された.本稿では,実験環境ハードウェアおよびソフトウェアの仕様を紹介するとともに,ユーザ管理,ジョブ管理,障害対応といった運用事例についても報告する.This paper presents a case study to operate the Grid testbed for the Grid Challenge in SACSIS2006. The Grid Challenge is a programming competition on a Grid testbed, which is organized by multiple computing resources installed in universities and laboratories. In the last competition, the Grid testbed with more than 1200 CPUs was operated. The paper shows hardware/software specifications of the Grid testbed, and reports experience of the operation, which includes accounting, job management, and troubleshooting.
著者
浅井 健一 松岡 聡 米澤 明憲
雑誌
全国大会講演論文集
巻号頁・発行日
vol.41, pp.8-9, 1990-09-04

近年、並列Lispが関数型言語の潜在的な並列性を大きく引き出せるものとして注目されている。実際にMultilisp[3]をはじめとしてMultischeme[6],Mul-T[5],QIisp[2]などたくさんの並列が開発され並列計算機上で高い性能が報告されている。しかし、現在のところ並列Lispは並列計算機上での性能を向上させることを目的としているのでもっぱら性能に関しての議論がなされ、言語の意味に関する考察はほとんどなされていない。そのため言語仕様があいまいになるし、言語仕様の変更も難しくなっている。このことはスケジューリング方式の固定化を引き起こし、ひいては自己反映計算[8]の実現を難しくしている。そこでMultiLispの操作的意味記述[1]を与え、これを用いて逐次型計算機上にSchme[7]によるインタプリタを作成した。さらにこれをもとに表示的意味記述を与える。またその記述から導かれるfutureとcall/ccとの相互干渉について述べる。
著者
千葉 立寛 遠藤 敏夫 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.8, pp.104-113, 2007-05-15

グリッド環境上におけるMPIコレクティブ通信の性能は,ネットワークトポロジに強く依存しており,これまでにも最適なネットワークトポロジを構築してコレクティブ通信を高速化させるための様々な手法が数多く提案されてきた.また,近年のクラスタシステムでは,各ノードが複数のNICを備えていることが多い.しかしながら,これまでに提案されている手法は,各ノードの送受信が実行できるポートを1つと仮定してトポロジを構築する手法がほとんどである.そこで我々は,各ノードにある2枚のNICのバンド幅を最大限利用するマルチレーンブロードキャストツリー構築アルゴリズムを提案する.このアルゴリズムでは,ブロードキャストするメッセージを2つに分割し,2枚のNICを用いて2つの独立したバイナリツリーを構築して,それに沿って分割したメッセージのパイプライン転送を行う.また,提案アルゴリズムは,クラスタ,グリッド両方のシステムで効果的に実行でき,NICを1枚だけ備えるノードに対しても複数のソケットを用意することで動作可能である.本稿では,ブロードキャスト通信に対してシミュレータ環境上で実験,評価を行い,従来手法よりも性能が向上したことを確認した.The performance of MPI collective operations, such as broadcast and reduction, is heavily affected by network topologies, especially in grid environments. Many techniques to construct efficient broadcast trees have been proposed for grids.On the other hand, recent high performance computing nodes are often equipped with multi-lane network interface cards (NICs), most previous collective communication methods fail to harness effectively. Our new broadcast algorithm for grid environments harnesses almost all downward and upward bandwidths of multi-lane NICs; a message to be broadcast is split into two pieces, which are broadcast along two independent binary trees in a pipelined fashion, and swapped between both trees. The salient feature of our algorithm is generality; it works effectively on both large clusters and grid environments. It can be also applied to nodes with a single NIC, by making multiple sockets share the NIC. Experimentations on a emulated network environment show that we achieve higher performance than traditional methods, regardless of network topologies or the message sizes.
著者
松岡 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.37-42, 2006-07-31
被引用文献数
7

TSUBAME (Tokyo-tech Supercomputer and Ubiquitously Accessible Mass-storage Environment)は、アクセラレータ部分を含めると100TFlops近いピーク性能・20TByte以上のメモリ・Fat Nodeおよび高速な間接網を基本とした共有メモリスパコン形アーキテクチャ・並びに1PByte以上のオンラインストレッジを備え、2006年春の時点で、あらゆるパラメタで現在わが国最高性能・最大規模の新型スパコンとして東工大・学術国際情報センターに構築された。TSUBAMEは従来の専用スパコンとPCクラスタ両者の利点を兼ね備え、かつそれぞれの欠点を補うマシンとして設計されており、スパコンとしての柔軟かつ強力なハイエンドの大規模並列計算やデータ処理の能力と、エンドユーザのデスクトップ・ノートブックやPCクラスタ環境との高い親和性との両立を実現している。これらを同時に満たすことが、TSUBAMEが標榜する「みんなのスパコン」であり、現代のIT環境にシームレスに接合して様々なサービスを提供する源となって、大学における教育・研究アーカイブなどの教育研究業務・メイルや事務処理などの統合的なホスティングを行い、将来の計算科学の人材を多数育むものとなる。TSUBAME (Tokyo-tech Supercomputer and Ubiquitously Accessible Mass-storage Environment) is a new supercomputer being hosted at the Global Scientific Information and Computing Center (GSIC), Tokyo Institute of Technology, sporting nearly 100 TFlops of compute power, over 20 TBytes of memory, fat node / shared memory architecture and fast interconnect, and over 1 PBytes of online storage, making it the fastest and the largest supercomputer in Japan. At the same time TSUBAME embodies the benefit of PC-based x86 ecosystem, allowing coexistence of high-end capability computing and synergy to user's PC-based desktop environment. As such TSUBAME can be regarded as "Everybody's Supercomputer", allowing unified hosting of various services including educational, office, as well as high-end supercomputing, becoming the bases of incubating numerous computational scientists of the future.
著者
松岡 聡 吉松 定昭 小野 哲 一見 和彦 藤原 宗弘 本田 恵二 多田 邦尚
出版者
日本海洋学会
雑誌
沿岸海洋研究 (ISSN:13422758)
巻号頁・発行日
vol.43, no.1, pp.77-84, 2005-08-26
被引用文献数
13

2002年度冬季,香川県沿岸では例年にないノリの不作が起き,ノリの生産金額は,平年の6割にまで減少した.ノリの色落ちが認められた水域の分布を詳細に検討したところ,特に不作であった海域は小豆島の北部および南西部海域であり,この地区の生産金額は平年の3割程度であった.過去12年間における年間ノリ生産量と漁期中の積算降水量との間には,正の相関関係が認められ,陸上からの栄養塩の供給がノリ生産量に大きく影響していることが考えられた.ノリ色落ち被害が顕著であった海域を対象に海洋観測を行った結果,色落ち被害の発生直後の2003年1月では,対象海域の塩分は33psu以上と例年よりも高く,栄養塩濃度もNO_3濃度が例年と比較して,3μM未満と低かった.このことから,例年に比べて,対象海域への陸域からの栄養塩の供給が少なかったことが考えられた.一方,2003年の梅雨期の6月には,対象海域の塩分は低く,栄養塩濃度も高かった.さらに,ノリの生育がほぼ正常であった翌年の1月では,2003年1月に比べて塩分は低く,栄養塩濃度も高くなっていた.以上の結果から,2002年度にノリの色落ちは,秋期の降水量が少なかった事が主な原因と考えられ,ノリの色落ち被害が顕著であった海域のノリ生産には,岡山県側の旭川・吉井川河口域(岡山水道)からの栄養塩供給が重要な影響を及ぼしていることが考えられた.
著者
白幡 晃一 佐藤 仁 鈴村 豊太郎 松岡 聡
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-130, no.14, pp.1-8, 2011-07-20

データ量の肥大化,ストレージの省コスト化,オンラインソーシャルネットワークの成功等に伴い大規模グラフ処理の重要性が高まっている.また,GPGPU と呼ばれる,GPU を汎用計算に応用する技術の研究・開発が進んでおり,GPU のスーパーコンピュータやクラウドへの導入が進みつつある.大規模グラフ処理ライブラリの一つに PEGASUS があり,MapReduce の反復処理によって計算することができる.GPU を利用した MapReduce 処理ライブラリの一つに Mars があるが,大規模グラフ処理に対して GPU を使用してどの程度高速化できるのか,またメモリあふれへの対処やマルチ GPU 化した場合のデータの割り振り方法は明らかではない.Mars 上にグラフ処理アプリケーション (PageRank,Random Walk with Restart,Connected Components) を実装し,PEGASUS との比較実験を行った結果,反復 1 回あたり PageRank で 2.17~9.53 倍,RWR で 2.18~5.47 倍,Connected Components で 2.41~8.46 倍の高速化がされることを確認した.
著者
青山 幹雄 西岡 健自 岸 知二 上原 三八 松岡 聡 中所 武司 深澤 良彰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ソフトウェア工学(SE) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.84, pp.89-96, 1995-09-08

1995年6月1日(木)?2日(金)に情報処理学会ソフトウェア工学研究会の主催で,慶応義塾大学三田校舎新館でオブジェクト指向'95シンポジウム(O'9)が開催され,326名の参加者があった.「オブジェクト指向によるシステム開発の理論実践」をテーマに,基調講演,チュートリアル,一般講演,パネル討論と内容の充実したシンポジウムであった.本稿では,同シンポジウムのもようを,初日の事例セション、2日目のパネル討論を中心に報告する.なお,本シンポジウムは来年も同時期に開催の予定である.The Object-Oriented '95 Symposium was held on June 1 - 2, 1995 at Mita Campus of Keio University in Tokyo. Under the theme of "Theory and Practice of Object-Oriented Systems Development", opening speeches, tutorials, general sessions and panel session have covered a wide spectrum of development technologies based on object-orientation. This report highlightens the major topics of the symposium as well as two special sessions; one session presented the experience of object-oriented systems development and another was a panel on the theory and practice of object-oriented development technology.
著者
田辺 昇 池井 満 遠藤 敏夫 松岡 聡 畑崎 隆雄 住元 真司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム
巻号頁・発行日
vol.106, no.287, 2006-10-06

高バンド幅で低遅延のSAN (System Area Network)がHPC用途のPCクラスタのノード間インターコネクトとして広く使われるようになってきた。本パネルでは、SANを用いて、より進んだコンピュータシステムを研究開発するために必要な技術をハードウェア、ソフトウェアの両面から議論し、その将来像と究極の姿を議論する
著者
佐藤 仁 松岡 聡 遠藤 敏夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.74, pp.211-216, 2008-07-29

グリッドファイルシステムでの効率的な複製管理を実現するために,アクセス頻度や管理ポリシーに応じて,スループットやストレージ容量などの性能要件を満たし,かつ,複製時間が最小になるように複製配置を決定するアルゴリズムを提案する.この複製配置問題をスループットやストレージ容量などの性能要件や複製転送のコストの最小化を目的関数とする組合せ最適化問題に帰着し,ファイルアクセスをモニタリングすることに得られた情報を利用することにより解く.提案アルゴリズムをシミュレーションで評価した結果,複製作成を行わない手法,アクセス時に複製をキャッシュする手法, サイト毎に複製を持つ手法などの単純な複製管理手法と比較して,ストレージ使用量を低く保ちつつ,かつ,高いスループット性能を達成する複製配置を自動的に実現することを確認した.We propose an automated replication algorithm for a grid file system that considers file access frequency and replica maintenance policy, and that allows most of I/O accesses to be performed within given throughput and storage usage thresholds, while simultaneously minimizing replica transfer time. Our algorithm models the replication problem as a combinational optimization problem, where the constraints are derived from the given throughput and storage usage threshold, and various system parameters collected from direct file access monitoring. Our simulated-based studies suggest that the proposed algorithm can achieve higher performance than simple techniques, such as ones that always or never create replicas, while keeping storage usage very low. The results also indicate that the proposed algorithm can perform comparably with manual replica placement.
著者
佐藤 仁 松岡 聡 遠藤 敏夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.80, pp.109-114, 2007-08-02

グリッドファイルシステムでは、1) クライアントからある特定のノードやファイルへのアクセスに時間的局所性がありアクセスが集中する、2) ファイルシステム上のファイルへのアクセスが空間的に遠方に存在するノードへのアクセスとなる、などの要因によりファイルアクセス性能が低下することが問題となる。しかし、効率の良い大規模データ管理を実現するためにどのようにファイルをグリッドファイルシステムを構成する広域に分散したノードに配置すれば良いかの戦略を決定づけるメトリックは明らかではない。我々は、広域に分散した 5 サイトからなる HPC クラスタを連携してファイルシステムを構成し、その上で、ファイルアクセスの行った際の性能を調査した。その結果、リモートファイルアクセス性能はノード間のバンド幅の影響を受けるが、RTT、バンド幅などのネットワークの限定された情報だけではファイルシステムを構成するノードの関係の推定が困難であること、ローカルファイルアクセス性能でもファイルアクセスパターンにより最大 0.1倍の性能に抑えられてしまうこと、が明らかになった。In parallel computing environments such as HPC clusters and the Grid, data-intensive applications involve large overhead due to the access concentration on files on commonly shared nodes. A grid filesystem with an automatic data management mechanism is one of the solutions to avoid such performance decrease. However, metrics to achieve efficient large scale data management are not clear for a given real grid environment. We federated 5 geographically distributed HPC clusters using a grid filesystem and experimented its various performance metrics of file access on the filesystem. We observed that, although remote access performance of files is affected by inter-node bandwidth, other factors are in place which makes prediction of performance solely based on limited inter-node information such as RTT or network bandwidth difficult, and that even for local file access, performance difference could be an order of magnitude depending on file access patterns due to access contentions.
著者
笹生 健 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.29, pp.1-6, 2003-03-11
被引用文献数
2

本研究ではヘテロな計算環境でのアルゴリズム研究を目的として,NAS Parallel BenchmarksのCG EP FT IS MGの5種類のカーネルベンチマークについて,通信の発生する頻度,データ分割法などの点から解析・分類した.そして,CPUヘテロなクラスタ上での負荷分散手法として,多次元配列データをブロック分割しているアルゴリズムについては,各PEの性能に応じて割り当てるブロックの個数を変えるという手法を用い,1次元配列データを分割するアルゴリズムについては,各PEの性能に応じて分割の幅を変えるという手法を用いて実装し,CPU性能のみヘテロなクラ スタ環境においてヘテロ対応手法の評価実験を行った.その結果,EP,IS,MGでは性能向上が見られたものの,CG,FTでは通信のオーバー ヘッドの増大により逆に性能低下を招く結果となった.In this study, we implemented the optimization of the Kernel Benchmarks of NAS Parallel Benchmarks for a heterogeneous cluster system and evaluated on the CPU heterogeneous cluster. We used the technique of optimization that load sharing by changing data size corresponding to a performance of each nodes. From the experimental results, our method achieves improvement of performance on EP, IS, and MG. But in the case of CG and FT, increase of a communicative overhead affects the performance, and the performance of our method less than original CG and FT.
著者
細萱 祐人 遠藤 敏夫 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.14, pp.85-90, 2009-02-19

近年,大規模計算機の消費電力のうち,メモリが占める割合が増加している.これはノードに大容量の DRAM が搭載されていることに起因しており,この DRAM の容量を小さくすることで省電力化が実現できる可能性がある.我々はスワップデバイスに FLASH メモリを使用したメモリシステムを提案しており,このシステムではアプリケーションによっては,スワップを起こしてでも電力コストの大きい DRAM の容量を小さくすることでエネルギーの削減が図れることがわかっている.しかし,エネルギーを最小とするメモリ容量はアプリケーションや問題サイズによって異なるため,アプリケーションの実行時にメモリアクセスを観察し,動的に設定する必要がある.我々は,メモリ容量を動的に変化することのできる DRAM の使用を前提とし,その選択可能なメモリ容量すべてで実行した場合のエネルギーを同時に推定する手法を提案し,エネルギーを削減する行う手法を示す.シミュレーションの結果,スワップを起こさないようにメモリ容量を選択した場合と比較して, 8% の実行時間の増加で, 25% のエネルギー削減ができることを示した.Recently, memory system is getting one of the most power consuming parts in high performance computers. This is mainly because computers are equipped with larger capacity of DRAM than applications actually need, thus there is an opportunity for reducing power by decreasing the capacity. We have already proposed a system that uses FLASH memory for the swap device, and shown that decreasing DRAM can reduce the energy with some applications, even if it causes page swapping. In such systems, the best capacity of DRAM, which achieves the lowest energy consumption, depends on characteristics of applications and problem sizes, so it is challenging to find such a capacity. We propose an algorithm that monitors the memory accesses while applications are running and optimizes the memory capacity dynamically. Our algorithm assumes that capacity of DRAM system can be controlled dynamically, and estimates energy consumption with all selectable capacities of DRAM. Through our trace driven simulation, we show that the 25% of energy consumption can be reduced with performance loss of 8%.