著者
瓜生 侑 遠藤 敏夫
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-185, no.28, pp.1-7, 2022-07-20

C++17 における実行ポリシーを用いたコードと kokkos を用いたコードはラムダ式を用いて記述され,高い移植性を持つことを特徴とし,CPU・GPU どちらでも並列実行が可能である.今回は,これらのコードを既存の並列プログラミングと性能の比較を行った.実験環境は本学のスーパーコンピューター TSUBAME3.0 である.また,それぞれのプログラムにブロッキングを施し,その性能とプログラミングコストについても比較を行った.
著者
遠藤 敏夫 額田 彰 松岡 聡
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.11, pp.1-6, 2010-12-09

Intel プロセッサに加え NVIDIA GPU を備え,2010 年 11 月に稼働開始したヘテロ型スパコンである TSUBAME 2.0 における Linpack ベンチマークの実行について報告する.本システムは 2CPU と 3GPU を備えた計算ノードを約 1400 台持ち,それらはフルバイセクションのファットツリー構造を持つ QDR InfiniBand ネットワークにより接続される.理論演算性能は TSUBAME 1.0 の約 30 倍となる 2.4PFlops であり,それを TSUBAME 1.0 とほぼ同じ規模の電力で実現している.Linpack ベンチマークのコード改良およびチューニングを GPU を用いた大規模システムの特性に合わせ行い,実行速度として 1.192PFlops を実現した.この結果は日本のスパコンとしては初めて PFlops を超えるものであり,Top500 スパコンランキングに 4 位にランクされた.We report Linpack benchmark results on the TSUBAME 2.0 supercomputer, a large scale heterogenous system with Intel processors and NVIDIA GPUs, operation of which has started in November 2010. The main part of this system consists of about 1400 compute nodes, each of which is equipped with two CPUs and three GPUs. The nodes are connected via full bisection fat tree network of QDR InfiniBand. The theoretical peak performance reaches 2.4PFlops, 30 times larger than that of the predesessor TSUBAME 1.0, while its power consumption is similar to TSUBAME 1.0. We conducted improvement and tuning of Linpack benchmark considering characteristics of large scale systems with GPUs, and achieved Linpack performance of 1.192PFlops. This is the first result that exceeds 1PFlops in Japan, and ranked as 4th in the latest Top500 supercomputer ranking.
著者
遠藤 敏夫 田浦 健次朗
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.81, pp.121-126, 2005-08-05

密に通信を必要とする並列計算をグリッド環境において行なう上での障害は、広域ネットワークの高い通信遅延である。本稿は、そのような計算の一つとして密行列のガウス消去法を取り上げ、高遅延環境でも高性能な並列アルゴリズムを述べる。その主要な技術はbatched pivotingと呼ばれるピボット選択手法である。本手法は、複数ステップのピボット選択処理をまとめて行なうことにより、同期コストを大幅に削減する。遅延をエミュレートした実験により、高遅延環境において本手法がpartial pivotingよりもはるかに高速に動作することを示す。一方、本手法ではpartial pivotingよりも計算精度が低下する可能性があるが、比較的良好なピボットを選択することにより、その低下を抑えるよう設計されている。乱数行列を用いた数値実験を通して、本手法がpartial pivotingに匹敵する計算精度を達成することを示す。Large latencies over WAN will remain to be an obstacle to running tightly coupled parallel applications on Grid environments. This paper takes one of such applications, Gaussian elimination of dence matrices and describes a parallel algorithm that is highly tolerant to latencies. The key technique is a pivoting strategy called batched pivoting, which largely reduces synchronization costs by batching pivot selections of several steps. Through experiments with large latencies emulated by software, we show our method works much faster than partial pivoting with large latencies. On the other hand, numerical accuracy of our method may be inferior to that of partial pivoting. However, our method is designed to suppress the degradation by selecting `better' pivots. Through experiments with random matrices, the batched pivoting achieves comparable accuracy to that of partial pivoting.
著者
鴨志田 良和 金田 憲二 遠藤 敏夫 田浦 健次朗 近山 隆
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム (ISSN:09135685)
巻号頁・発行日
vol.106, no.199, pp.19-24, 2006-07-26
被引用文献数
2

我々は,多数の計算機の効率的な監視と,対話的なコマンド投入を行うシステムVGXP(Visual Grid eXPlorer)を開発している.VGXPは面倒な個々の計算機へのインストールが不要で高速な並列コマンド投入が可能なGXPを拡張したシステムで,計算機のリソース利用率の監視と可視化機能を追加したものである.VGXPを使うと各計算機でのリソース利用率が図示されるので,クラスタの混み具合や負荷分散のバランスを一目で把握することができ,並列プログラムの開発やテストに役立てることができる.また,監視のために各計算機で必要なCPU負荷は約2%程度で,6拠点にまたがる約600台の計算機を監視した場合でも表示ノードにかかるCPU負荷は20%程度と,低負荷で監視を行うことができる.本稿では,これらの機能の実現方法や,監視のための情報収集の性能について説明する.
著者
遠藤 敏夫 額田 彰 松岡 聡
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.4, no.4, pp.169-179, 2011-10-05

2010 年 11 月に稼働開始した TSUBAME 2.0 スーパコンピュータは,Intel プロセッサに加え 4,000 以上の NVIDIA GPU を備えるペタスケールのヘテロ型システムである.この TSUBAME 2.0 における Linpack ベンチマークの実行について報告する.本システムは 2CPU と 3GPU を備えた計算ノードを約 1,400 台持ち,それらはフルバイセクションのファットツリー構造を持つ Dual-Rail QDR InfiniBand ネットワークにより接続される.理論演算性能は TSUBAME 1.0 の約 30 倍となる 2.4PFlops であり,それを TSUBAME 1.0 とほぼ同じ規模の電力で実現している.Linpack ベンチマークのコード改良およびチューニングを GPU を用いた大規模システムの特性に合わせて行い,実行速度として 1.192PFlops を実現した.この結果は日本のスパコンとしては初めて PFlops を超えるものであり,Top500 スパコンランキングに 4 位にランクされた.さらに電力性能比は 958MFlops/W であり,Green500 ランキングにおいて the Greenest Production Supercomputer in the World 賞を獲得した.
著者
遠藤 敏夫 松岡 聡 橋爪 信明 長坂 真路 後藤 和茂
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.43-48, 2006-07-31
参考文献数
8
被引用文献数
5

TSUBAMEスーパーコンピュータは,655ノード10480 Opteron coreと360枚の ClearSpeed SIMDアクセラレータボードを備えるヘテロ型の大規模クラスタシステムである.TSUBAMEはLinpackベンチマークで38.18TFlopsを記録し,この結果により2006年6月のTop500ランキングに7位としてランクされた.しかしその測定にはOpteronのみが使われ,アクセラレータは用いられていない.本論文は汎用CPUとアクセラレータによる不均一な環境においてLinpack 性能を得る上での課題について論じ,解決法を述べる.16ノード256 CPU coreを用いた予備実験では,アクセラレータ8枚を加えたときに8.2 %,16枚を加えたときに19%の性能向上が観測された.The TSUBAME supercomputer is a heterogeneous large-scale cluster system, which is equipped with 10480 Opteron CPU cores on 655 nodes and 360 ClearSpeed SIMD accelerator boards. The TSUBAME system has achieved 38.18TFlops with Linpack benchmark and is ranked 7th in the Top500 supercomputer ranking in June 2006, even though the measurement is done without any accelerator boards. This paper discusses issues to obtain high Linpack performance on heterogeneous systems with general purpose processors and accelerators, and describes solutions. Through preliminary experiments with 256 CPU cores on sixteen nodes, we observed +8.2% speed-up when eight accelerators are added, and +19% with sixteen accelerators.
著者
遠藤 敏夫 池田 守利 猪俣 理 深野 重次郎
出版者
Japan Ergonomics Society
雑誌
人間工学 (ISSN:05494974)
巻号頁・発行日
vol.10, no.1, pp.17-23, 1974
被引用文献数
2

人間特性と生産システムの適合性を評価するうえで, 種々の機能検査が応用されているが, その測定条件によって異った測定結果をうることが少なくない.<br>その一つの方法として多用されるフリッカー・テストは, 大脳活動度を指標として, 作業者がシステムの側からうける不利な影響を検出するのに適している. しかし, 従来の測定装置には, 精度や取扱いのうえで, あるいは保守の点などで, 測定条件が必ずしも均一とならない問題があった.<br>こうした問題点を解決するためにフリッカー値自動測定装置を開発した. 試作した装置は, 視標光源には発光ダイオードを用いた光源点滅方式とし, リセットボタンを押すことによって, 連続5試行のフリッカー値測定がおこなわれ, ディジタルに直示, または, 磁気記録されるよう, 安定した電子回路によって測定精度の向上をはかった. また, この装置は, 被験者自身でも単独測定できるのが大きな特徴であって, 測定条件が均一であり, 広く応用が可能である.
著者
遠藤 敏夫 額田 彰 松岡 聡
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.4, no.4, pp.169-179, 2011-10-05

2010 年 11 月に稼働開始した TSUBAME 2.0 スーパコンピュータは,Intel プロセッサに加え 4,000 以上の NVIDIA GPU を備えるペタスケールのヘテロ型システムである.この TSUBAME 2.0 における Linpack ベンチマークの実行について報告する.本システムは 2CPU と 3GPU を備えた計算ノードを約 1,400 台持ち,それらはフルバイセクションのファットツリー構造を持つ Dual-Rail QDR InfiniBand ネットワークにより接続される.理論演算性能は TSUBAME 1.0 の約 30 倍となる 2.4PFlops であり,それを TSUBAME 1.0 とほぼ同じ規模の電力で実現している.Linpack ベンチマークのコード改良およびチューニングを GPU を用いた大規模システムの特性に合わせて行い,実行速度として 1.192PFlops を実現した.この結果は日本のスパコンとしては初めて PFlops を超えるものであり,Top500 スパコンランキングに 4 位にランクされた.さらに電力性能比は 958MFlops/W であり,Green500 ランキングにおいて the Greenest Production Supercomputer in the World 賞を獲得した.We report Linpack benchmark results on the TSUBAME 2.0 supercomputer, a large scale heterogeneous system with Intel processors and > 4,000 NVIDIA GPUs, operation of which has started in November 2010. The main part of this system consists of about 1,400 compute nodes, each of which is equipped with two CPUs and three GPUs. The nodes are connected via full bisection fat tree network of Dual-Rail QDR InfiniBand. The theoretical peak performance reaches 2.4PFlops, 30 times larger than that of the predecessor TSUBAME 1.0, while its power consumption is similar to TSUBAME 1.0. We conducted improvement and tuning of Linpack benchmark considering characteristics of large scale systems with GPUs, and achieved Linpack performance of 1.192PFlops. This is the first result that exceeds 1PFlops in Japan, and ranked as 4th in the latest Top500 supercomputer ranking. Also TSUBAME 2.0 has received "the Greenest Production Supercomputer in the World" prize in Green500 ranking for its performance power ratio of 958MFlops/W.
著者
松岡 聡 實本 英之 遠藤 敏夫 佐藤 仁 丸山 直也 滝澤 真一朗 佐藤 賢斗 Leonardo Bautista Gomez Jens Domke
出版者
東京工業大学
雑誌
基盤研究(S)
巻号頁・発行日
2011-04-01

エクサ(10の18乗)フロップス・10億並列のエクサスケール・スーパーコンピュータ実現には、規模の増大による故障率の増加に対応する必要がある。このための耐故障性基盤を確立することを目的として耐故障にかかわる複数の要素を対象とした複合的数理モデルの提案とそれを用いた軽量かつ高度な耐故障化手法を提案・評価した。また、開発したシステムの一部についてはオープンソースでの公開を行っている。
著者
遠藤 敏夫 手塚 七五郎 佐藤 吉永
出版者
日本交通医学会
雑誌
交通医学 (ISSN:00225274)
巻号頁・発行日
vol.36, no.3, pp.p195-204, 1982-05
被引用文献数
6 7
著者
合田 憲人 大澤 清 大角 知孝 笠井 武史 小野 功 實本 英之 松岡 聡 斎藤 秀雄 遠藤 敏夫 横山 大作 田浦 健次朗 近山 隆 田中 良夫 下坂 久司 梶原広輝 廣安 知之 藤澤克樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.49-54, 2006-07-31
被引用文献数
3

本稿では,2005年12月から2006年5月にかけて実施されたGrid Challenge in SACSIS2006において使用されたグリッド実験環境の構築・運用事例を報告する.Grid Challengeは,大学,研究所が提供する複数の計算資源からなるグリッド実験環境上で,参加者がプログラミング技術を競う大会であり,今大会では1200CPU超の計算資源からなるグリッド実験環境が運用された.本稿では,実験環境ハードウェアおよびソフトウェアの仕様を紹介するとともに,ユーザ管理,ジョブ管理,障害対応といった運用事例についても報告する.This paper presents a case study to operate the Grid testbed for the Grid Challenge in SACSIS2006. The Grid Challenge is a programming competition on a Grid testbed, which is organized by multiple computing resources installed in universities and laboratories. In the last competition, the Grid testbed with more than 1200 CPUs was operated. The paper shows hardware/software specifications of the Grid testbed, and reports experience of the operation, which includes accounting, job management, and troubleshooting.
著者
千葉 立寛 遠藤 敏夫 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.8, pp.104-113, 2007-05-15

グリッド環境上におけるMPIコレクティブ通信の性能は,ネットワークトポロジに強く依存しており,これまでにも最適なネットワークトポロジを構築してコレクティブ通信を高速化させるための様々な手法が数多く提案されてきた.また,近年のクラスタシステムでは,各ノードが複数のNICを備えていることが多い.しかしながら,これまでに提案されている手法は,各ノードの送受信が実行できるポートを1つと仮定してトポロジを構築する手法がほとんどである.そこで我々は,各ノードにある2枚のNICのバンド幅を最大限利用するマルチレーンブロードキャストツリー構築アルゴリズムを提案する.このアルゴリズムでは,ブロードキャストするメッセージを2つに分割し,2枚のNICを用いて2つの独立したバイナリツリーを構築して,それに沿って分割したメッセージのパイプライン転送を行う.また,提案アルゴリズムは,クラスタ,グリッド両方のシステムで効果的に実行でき,NICを1枚だけ備えるノードに対しても複数のソケットを用意することで動作可能である.本稿では,ブロードキャスト通信に対してシミュレータ環境上で実験,評価を行い,従来手法よりも性能が向上したことを確認した.The performance of MPI collective operations, such as broadcast and reduction, is heavily affected by network topologies, especially in grid environments. Many techniques to construct efficient broadcast trees have been proposed for grids.On the other hand, recent high performance computing nodes are often equipped with multi-lane network interface cards (NICs), most previous collective communication methods fail to harness effectively. Our new broadcast algorithm for grid environments harnesses almost all downward and upward bandwidths of multi-lane NICs; a message to be broadcast is split into two pieces, which are broadcast along two independent binary trees in a pipelined fashion, and swapped between both trees. The salient feature of our algorithm is generality; it works effectively on both large clusters and grid environments. It can be also applied to nodes with a single NIC, by making multiple sockets share the NIC. Experimentations on a emulated network environment show that we achieve higher performance than traditional methods, regardless of network topologies or the message sizes.
著者
近山 隆 湯淺 太一 上田 和紀 田浦 健次朗 遠藤 敏夫 横山 大作 田浦 健次朗 遠藤 敏夫 横山 大作 馬谷 誠二
出版者
東京大学
雑誌
特定領域研究
巻号頁・発行日
2006

爆発的に増加する大量の情報を効率的に扱うソフトウェアの構成には、広域に分散配置した高度な並列性を持つ情報システムを柔軟に記述できるソフトウェアの枠組が基本技術として必要となる。このためのプログラミング言語やミドルウェアのシステムと、複雑なソフトウェアの正当性を検証するためのシステムを対象に研究を進め、具体的なシステムを提案、設計、実装し、その性能を検証した。代表的成果ソフトウェアは公開している。
著者
田辺 昇 池井 満 遠藤 敏夫 松岡 聡 畑崎 隆雄 住元 真司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム
巻号頁・発行日
vol.106, no.287, 2006-10-06

高バンド幅で低遅延のSAN (System Area Network)がHPC用途のPCクラスタのノード間インターコネクトとして広く使われるようになってきた。本パネルでは、SANを用いて、より進んだコンピュータシステムを研究開発するために必要な技術をハードウェア、ソフトウェアの両面から議論し、その将来像と究極の姿を議論する
著者
佐藤 仁 松岡 聡 遠藤 敏夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.74, pp.211-216, 2008-07-29

グリッドファイルシステムでの効率的な複製管理を実現するために,アクセス頻度や管理ポリシーに応じて,スループットやストレージ容量などの性能要件を満たし,かつ,複製時間が最小になるように複製配置を決定するアルゴリズムを提案する.この複製配置問題をスループットやストレージ容量などの性能要件や複製転送のコストの最小化を目的関数とする組合せ最適化問題に帰着し,ファイルアクセスをモニタリングすることに得られた情報を利用することにより解く.提案アルゴリズムをシミュレーションで評価した結果,複製作成を行わない手法,アクセス時に複製をキャッシュする手法, サイト毎に複製を持つ手法などの単純な複製管理手法と比較して,ストレージ使用量を低く保ちつつ,かつ,高いスループット性能を達成する複製配置を自動的に実現することを確認した.We propose an automated replication algorithm for a grid file system that considers file access frequency and replica maintenance policy, and that allows most of I/O accesses to be performed within given throughput and storage usage thresholds, while simultaneously minimizing replica transfer time. Our algorithm models the replication problem as a combinational optimization problem, where the constraints are derived from the given throughput and storage usage threshold, and various system parameters collected from direct file access monitoring. Our simulated-based studies suggest that the proposed algorithm can achieve higher performance than simple techniques, such as ones that always or never create replicas, while keeping storage usage very low. The results also indicate that the proposed algorithm can perform comparably with manual replica placement.
著者
佐藤 仁 松岡 聡 遠藤 敏夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.80, pp.109-114, 2007-08-02

グリッドファイルシステムでは、1) クライアントからある特定のノードやファイルへのアクセスに時間的局所性がありアクセスが集中する、2) ファイルシステム上のファイルへのアクセスが空間的に遠方に存在するノードへのアクセスとなる、などの要因によりファイルアクセス性能が低下することが問題となる。しかし、効率の良い大規模データ管理を実現するためにどのようにファイルをグリッドファイルシステムを構成する広域に分散したノードに配置すれば良いかの戦略を決定づけるメトリックは明らかではない。我々は、広域に分散した 5 サイトからなる HPC クラスタを連携してファイルシステムを構成し、その上で、ファイルアクセスの行った際の性能を調査した。その結果、リモートファイルアクセス性能はノード間のバンド幅の影響を受けるが、RTT、バンド幅などのネットワークの限定された情報だけではファイルシステムを構成するノードの関係の推定が困難であること、ローカルファイルアクセス性能でもファイルアクセスパターンにより最大 0.1倍の性能に抑えられてしまうこと、が明らかになった。In parallel computing environments such as HPC clusters and the Grid, data-intensive applications involve large overhead due to the access concentration on files on commonly shared nodes. A grid filesystem with an automatic data management mechanism is one of the solutions to avoid such performance decrease. However, metrics to achieve efficient large scale data management are not clear for a given real grid environment. We federated 5 geographically distributed HPC clusters using a grid filesystem and experimented its various performance metrics of file access on the filesystem. We observed that, although remote access performance of files is affected by inter-node bandwidth, other factors are in place which makes prediction of performance solely based on limited inter-node information such as RTT or network bandwidth difficult, and that even for local file access, performance difference could be an order of magnitude depending on file access patterns due to access contentions.
著者
細萱 祐人 遠藤 敏夫 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.14, pp.85-90, 2009-02-19

近年,大規模計算機の消費電力のうち,メモリが占める割合が増加している.これはノードに大容量の DRAM が搭載されていることに起因しており,この DRAM の容量を小さくすることで省電力化が実現できる可能性がある.我々はスワップデバイスに FLASH メモリを使用したメモリシステムを提案しており,このシステムではアプリケーションによっては,スワップを起こしてでも電力コストの大きい DRAM の容量を小さくすることでエネルギーの削減が図れることがわかっている.しかし,エネルギーを最小とするメモリ容量はアプリケーションや問題サイズによって異なるため,アプリケーションの実行時にメモリアクセスを観察し,動的に設定する必要がある.我々は,メモリ容量を動的に変化することのできる DRAM の使用を前提とし,その選択可能なメモリ容量すべてで実行した場合のエネルギーを同時に推定する手法を提案し,エネルギーを削減する行う手法を示す.シミュレーションの結果,スワップを起こさないようにメモリ容量を選択した場合と比較して, 8% の実行時間の増加で, 25% のエネルギー削減ができることを示した.Recently, memory system is getting one of the most power consuming parts in high performance computers. This is mainly because computers are equipped with larger capacity of DRAM than applications actually need, thus there is an opportunity for reducing power by decreasing the capacity. We have already proposed a system that uses FLASH memory for the swap device, and shown that decreasing DRAM can reduce the energy with some applications, even if it causes page swapping. In such systems, the best capacity of DRAM, which achieves the lowest energy consumption, depends on characteristics of applications and problem sizes, so it is challenging to find such a capacity. We propose an algorithm that monitors the memory accesses while applications are running and optimizes the memory capacity dynamically. Our algorithm assumes that capacity of DRAM system can be controlled dynamically, and estimates energy consumption with all selectable capacities of DRAM. Through our trace driven simulation, we show that the 25% of energy consumption can be reduced with performance loss of 8%.
著者
細萱 祐人 遠藤 敏夫 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.14, pp.85-90, 2009-02-19

近年,大規模計算機の消費電力のうち,メモリが占める割合が増加している.これはノードに大容量の DRAM が搭載されていることに起因しており,この DRAM の容量を小さくすることで省電力化が実現できる可能性がある.我々はスワップデバイスに FLASH メモリを使用したメモリシステムを提案しており,このシステムではアプリケーションによっては,スワップを起こしてでも電力コストの大きい DRAM の容量を小さくすることでエネルギーの削減が図れることがわかっている.しかし,エネルギーを最小とするメモリ容量はアプリケーションや問題サイズによって異なるため,アプリケーションの実行時にメモリアクセスを観察し,動的に設定する必要がある.我々は,メモリ容量を動的に変化することのできる DRAM の使用を前提とし,その選択可能なメモリ容量すべてで実行した場合のエネルギーを同時に推定する手法を提案し,エネルギーを削減する行う手法を示す.シミュレーションの結果,スワップを起こさないようにメモリ容量を選択した場合と比較して, 8% の実行時間の増加で, 25% のエネルギー削減ができることを示した.Recently, memory system is getting one of the most power consuming parts in high performance computers. This is mainly because computers are equipped with larger capacity of DRAM than applications actually need, thus there is an opportunity for reducing power by decreasing the capacity. We have already proposed a system that uses FLASH memory for the swap device, and shown that decreasing DRAM can reduce the energy with some applications, even if it causes page swapping. In such systems, the best capacity of DRAM, which achieves the lowest energy consumption, depends on characteristics of applications and problem sizes, so it is challenging to find such a capacity. We propose an algorithm that monitors the memory accesses while applications are running and optimizes the memory capacity dynamically. Our algorithm assumes that capacity of DRAM system can be controlled dynamically, and estimates energy consumption with all selectable capacities of DRAM. Through our trace driven simulation, we show that the 25% of energy consumption can be reduced with performance loss of 8%.
著者
今井 健男 山本 泰宇 遠藤 敏夫 田浦 健次朗 米澤 明憲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌プログラミング(PRO) (ISSN:18827802)
巻号頁・発行日
vol.40, no.1, pp.42-56, 1999-02-15

我々は C++に分散オブジェクトと分散ごみ集め(分散GC)機構を導入した 分散記憶型並列計算機向け拡張言語DisCを開発する. 我々はまず 分散オブジェクトをC/C++上で扱うためのライブラリ(GCライブラリ)を開発する. これは オブジェクトがどのプロセッサ上にあるのかの判定 あるいは遠隔参照の明示的な作成等 分散オブジェクトの基礎的な機能を実現する. そしてこのライブラリに対し 動的にゴミとなった分散オブジェクトを回収する分散ごみ集めの機能を導入する. このごみ集め機構は特定の通信ライブラリに依らないため 広範な環境での動作が可能である. 次に 上記のGCライブラリを暗黙的に呼び出してリモートメソッド呼び出し等の抽象度の高い機能を 構文仕様の変更なしに実現するフロントエンドを構築する. ここでは自己反映言語OpenC++を用いる事により実装を簡便にし 保守性と移植性を確保している. そして このフロントエンドとGCライブラリを既存のC++処理系に組み合わせる事で 既存の処理系に手を加えない形でのC++の拡張を行なう. プログラマは 通常のC++プログラムでのオブジェクトの操作と同様の記述を用いて 分散オブジェクトの機能を暗黙的に使用できる. DisCは 分散GC機構を備えている他に 1)構文仕様の変更が一切なく 通常のC++と同様の記述で分散オブジェクト・プログラミングができ また 2)様々な計算機環境への高い移植性を持つ という特長がある. これにより 分散記憶型計算機上で動くプログラムの開発と保守 及び異なる分散記憶計算機間でのソフトウエア資産の共有が容易になる. 本稿では 上記ライブラリ及び言語処理系の設計及び実装手法について述べ さらに応用プログラムを作成し 実際に分散記憶型計算機上で動かして拡張言語の性能を評価する.We develop DisC, an extension of C++ that supports distributed objects and distributed garbage collection on distributed memory parallel computers. We first develop a library for C/C++, which includes basic functions to manage distributed objects. This library includes a function that tells whether an object is local or remote, functions that explicitly make remote references. It also provides a distributed garbage collection facility that reclaims objects that are no longer used. The facility is portable because of its independency from communication libraries. We also develop an front-end processor that implicitly invokes functions or the library described above, and brings higher abstractions such as remote method invocation, with no changes to the syntax of C++. We use a reflective language Open C++ to implement the processor, we achieve simple implementation and acquire its portability and maintainability. Programmers can invoke methods of distributed objects in our language as if they were normal C++ objects. Besides the distributed garbage collection facility, there are two major advantages in our language: 1)its extension involves no syntactic changes and the users can write programs with distributed objects as if they write programs in original C++, and 2) it is highly portable to various distributed parallel computers or environments, which have diverse interfaces for inter-processor communication. These advantages makes it easier to develop or maintain parallel software that are portable across various distributed-memory parallel environments. We also evaluate our extended C++ with some experiments using several parallel applications.