著者
大野 善之 堀 敦史 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-132, no.34, pp.1-6, 2011-11-21

並列ジョブにおける多数ファイルに対する I/O をひとつのファイルに対する I/O に集約することによりファイル I/O を高速化する方式を提案する.各プロセスごとにファイルを作成し,データを書き出すというファイル I/O パターンをとるアプリケーションが多くある.しかし,現在普及している並列ファイルシステムは,少数の大きなデータ I/O で高い性能がでるように設計されており,プロセスごとにファイルを作成するという I/O パターンでは高い性能がでない.そこで,並列ジョブにおけるファイル I/O をひとつのファイルに集約し,少数の大きなデータ I/O にする方式を提案する.Lustre 上で予備評価を行った結果,並列プロセスがそれぞれ 1MB のファイルを 128 個 I/O する場合,2-3 倍の性能向上を確認した.
著者
堀 敦史 山本 啓二 大野 善之 今田 俊寛 亀山 豊久 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.6, pp.1-8, 2011-07-20

エクサスケールを視野に置いた、メモリや通信の遅延を隠蔽するための新しいマルチスレッドライブラリを提案する。そのためにはサブマイクロ秒でのスレッド制御を可能にする必要がある。本稿では、スレッドスケジューリングとして、プロセッサの Simultaneous Multi-Threading 機能を用い、ハードウェアによる高速なスレッドスケジューリングを用い、また、スレッド間の同期機構として Intel 製のプロセッサが提供する monitor/mwait 命令を用いた新しいスレッドライブラリ、Shadow Thread を提案する。高速な同期と低消費電力を両立させるため、同期フラグを spin-waitとmonitor/mwait 命令を組み合わせた 2-phase の同期機構が有効であることを示す。この方式を用いて開発された Shadow Thread は、メモリ領域のコピーにおいて、最大約 20% の高速化に成功した。Towards the Exa-scale computing, a new thread library is proposed to hide the latencies of memory and communication. For this purpose, thread management must be fast enough in the order of sub-micro seconds. In this paper, the thread library, named Shadow Thread, is developed so that it utilizes Simultaneous Multi-Threading mechanism which schedules threads by hardware in a very fast way and utilizes the monitor and mwait instructions supported by some Intel processors. It is shown that the two-phase synchronization technique combining the conventional spin-wait method and the pair of the monitor/mwait instructions can satisfy the requirement of speed and low-power consumption simultaneously. Evaluation shows that a memory copy function using the Shadow Thread library can exhibit better performance up to 20% compared with the normal memcpy function.
著者
高木 省吾 渡邊 寛 福士 将 天野 憲樹 舩曵 信生 中西 透
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014, no.29, pp.1-8, 2014-02-24

ボランティアコンピューティング (VC) で高い性能を実現するためには,多数の参加者を集める事が重要である.しかし,既存の VC システムでは,参加に際して専用ソフトウェアのインストール等の手間がかかり,参加の障害となっている.そこで本研究では,参加者が Web ブラウザで指定の URL にアクセスするだけで即座に VC に参加することができるような,Web ベースの VC プラットフォームを提案する.提案するプラットフォームでは,PNaCl 等の LLVM 技術を用いることで,C/C++ で記述された計算問題を Web アプリ化し,ブラウザ上で高速に実行することができる.性能評価として,PNaCl を用いて姫野ベンチマークを Web アプリ化した場合,ネィティブアプリと同等の実行性能を実現できることを確認した.In Volunteer Computing (VC) systems, volunteer participants can contribute their idle computing resources by computing a piece of the computation (job) in their idle time. In existing VC systems, participants must put an extra effort, e.g. installing a dedicated software to their computers and register their personal E-mail addresses, which will be barriers to join as a participant. This paper proposes a web-based VC platform, in which participants can join to VC system by just accessing a specified URL with Web browsers. By using LLVM techniques such as PNaCL, VC jobs become convertible as fast-acting Web applications. As the results of our experiments based on Himeno Benchmark, we show that the performance of PNaCl codes on a web browser is equivalent of native one.
著者
Nan Dun Sugianto Angkasa Kenjiro Taura Ting Chen
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.39, pp.1-7, 2011-07-20

Cynk is a hybrid file system using rsync and SSH for data-intensive cloud computing. By automatically synchronizing the local file system with a cloud storage, Cynk enables users to transparently access local/remote data when they are online and continue working when disconnected from network. The hybrid architecture of Cynk means that it can allow users to simutaneously access locally synchronized/cached data or online remote data over the network via a uniform file system interface. Cynk uses the rsync tool with a partially reasoning based protocol to synchronize files from local to remote file systems and vice versa. It only requires the installation of client on local side. By seamlessly bridging the local file system and cloud storage, Cynk especially simplifies the work cycle of developing, testing, and deploying data-intensive applications.Cynk is a hybrid file system using rsync and SSH for data-intensive cloud computing. By automatically synchronizing the local file system with a cloud storage, Cynk enables users to transparently access local/remote data when they are online and continue working when disconnected from network. The hybrid architecture of Cynk means that it can allow users to simutaneously access locally synchronized/cached data or online remote data over the network via a uniform file system interface. Cynk uses the rsync tool with a partially reasoning based protocol to synchronize files from local to remote file systems and vice versa. It only requires the installation of client on local side. By seamlessly bridging the local file system and cloud storage, Cynk especially simplifies the work cycle of developing, testing, and deploying data-intensive applications.
著者
鷹津 冬将 建部 修見
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-133, no.17, pp.1-8, 2012-03-19

本稿では,SSD などの高速なストレージにおける効率的なファイルシステムの実現に向けて,Log Structured File System をベースにストレージへの書込が逐次書込となるよう mylfs の設計を行い、プロトタイプ実装を用い様々なアクセスパターンによる評価を行った。逐次書込の評価では、mylfs は raw device の性能に対し、HDD で書込は 94%、読込は 97% の性能を達成し、SSD で書込は 79%、読込は 98% の性能を達成した。ファイル更新の評価では、逐次更新、ランダム更新ともに mylfs は他のファイルシステムに比べ高い性能を示し、もっとも性能の良かった ext3 と比較して、逐次更新では HDD で 138%、SSD で 121%、ランダム更新では HDD で 572%、SSD で 135% の性能を達成した。
著者
小郷 絢子 田邊 昇 高田 雅美 城 和貴
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.15, pp.1-10, 2011-07-20

本報告では,係数行列や解ベクトルが GPU 上に載りきらないほど大きな連立一次方程式を共役勾配法 (CG法) で解く際に,メモリアクセラレータの利用を提案する.提案アクセラレータは GDDR5 ポートなどに接続され,デバイスメモリの厳しい容量制約を緩和するとともに,Gather 機能によりキャッシュや GDDR 系メモリが苦手とする間接アクセスを連続アクセス化する.本報告では,フロリダ大学の疎行列コレクションを用いて提案方式の性能評価を行った.その結果,テクスチャキャッシュが効くような小さな行列でも,単体性能はテクスチャキャッシュを用いる既存手法の 1.05~2.01 倍に向上した.従来手法は行列サイズを大きくした時,GPU 内キャッシュのヒット率が低下し,性能低下する.解ベクトルがデバイスメモリ容量を超えると PCI express を通過する通信により,さらなる性能低下が予想される.それに対し,本手法はそれらの心配が無い.In this paper, we propose the use of memory accelerator to solve systems of liner equation, which coefficient matrices and solution vector unable to be had on board by CG method. In the case of existing method, when the size of matrix is increase, performance decrease because of hit probability on GPU cache decrease. We predict that performance decrease because of access of exceed access, the case solution vector is over device memory capacity. In contrast, there is no risk, thanks to this method. Proposed accelerator is connected to such as GDDR5 port, it ease severe capacity limit, and make indirect access which is unsuitable for cache and GDDR memory into direct access using gather function. In this paper, we evaluate the performance of proposed strategy with University of Florida Sparse Matrix Collection. The result showed from the 1.05 to the 2.01 times acceleration over the case of existing performance record with the texture cache, even if small matrix which has effect of texture cache.
著者
堀 敦史 李 珍泌 佐藤 三久
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.12, pp.1-8, 2010-07-27

片方向通信は,ハードウェアによる RDMA (Remote Direct Memory Access) と相性が良く,高い通信性能を実現できる方式として注目されている.本稿では,片方向通信をソフトウェアで実装する際のポイントを挙げ,既存の片方向通信ライブラリである ARMCI と GASNet について実装方式を調査した.その結果,RDMA を用いずにメッセージ通信を下位レベルの通信レイヤーとして片方向通信が実現できること,RDMA を用いた場合の実装に比べ実装が容易であること,さらに RDMA 方式に劣らない性能を発揮する可能性があることを示す.また実際にこの方式による片方向通信ライブラリ Telemem を開発し,RDMA を用いた片方向通信ライブラリである ARMCI と性能をベンチマークプログラムを通じて比較し,Telemem の性能が ARMCI を上回る場合があることを示す.One-sided communication is thought to have an affinity with Remote Direct Memory Access (RDMA) done by a network interface hardware, and is attracting attentions as a way of implementing scalable high-performance communication system. In this paper, some points to a implement one-sided communication system will be listed and then it will be pointed out that a one-sided communication system without using RDMA but having low-level message communication layer can be implemented easily, avoiding some of the implemenation issues. The proposed one-sided communication system is implemented and named "Telemem," and evaluated with ARMCI one-sided communication system using RDMA. Through the benchmark evaluations, it will be shown that the application performance with Telemem may overcome the performance with ARMCI.
著者
久保田 悠司 高橋 大介
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.19, pp.1-7, 2010-12-09

近年,科学技術計算の分野で GPGPU が注目されている.科学技術計算では,特に疎行列ベクトル積を用いることが多いため,疎行列ベクトル積の高速化が重要である.疎行列には多くの格納形式があるが,疎行列によって最適な格納形式は異なる.そこで,本研究では与えられた疎行列によって最適な格納形式に変換してから,疎行列ベクトル積を行うことで高速化を図る.まず予備実験として,いくつかの疎行列の格納形式について,疎行列ベクトル積を実装し,実行速度を測定した.その後,予備実験の結果をもとに自動選択するためのパラメータを決定し,自動選択アルゴリズムを実装する.また,実装したアルゴリズムを,反復法による連立一次方程式の求解を用いて評価した.その結果,多くの疎行列において最適な格納形式を選択し高速化することに成功した.Sparse matrix vector multiplication is one of the most often used functions in scientific and engineering computing.The storage schemes for sparse matrices have been proposed,however,each sparse matrices have an optimal storage scheme,In this paper,we propose an auto-tuning algorithm of sparse matrix vector multiplication by selecting storage schemes automatically on GPU,We evaluated our algorithm using Conjugate Gradient solver.As a result,we found that our algorithm was effective in many sparse matrices.
著者
南 武志 岩下 武史 中島 浩
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.65, pp.1-8, 2011-07-20

本論文では高周波電磁場解析の一手法である 3 次元 FDTD 法におけるキャッシュメモリを考慮した性能改善手法の提案と性能評価を行う.3 次元 FDTD 法の計算カーネルは時間発展に関するループにより与えられ,各タイムステップにおいて電場と磁場の値が交互に更新される.3 次元 FDTD 法の計算カーネルは演算あたりのロード/ストア量が大きく,一般にメモリ帯域の影響を受けやすい計算である.キャッシュメモリのヒット率を向上しメインメモリへのアクセスによる性能の低下を軽減する性能改善手法として,解析領域をタイルと呼ぶ小領域に分割し各タイル内で複数のタイムステップに関する処理を連続して行うタイリングと呼ばれる手法が存在する.しかし,単純な固定タイルによる実装では,タイル間での冗長な計算がオーバーヘッドとなっていた.そこで,本論文ではタイリング手法において,タイルの位置と形状を時間ステップごとに変化させ計算量の増加を防ぐ手法を提案する.提案手法を評価した結果,AMD 製クアッドコア Opteron プロセッサよる数値実験において 4 スレッドによる並列処理を行った場合,一般的な 3 次元 FDTD 法の実装と比較して計算時間を約 50% 短縮させることに成功した.This paper deals with performance improvement of three dimensional FDTD kernel for high frequency electromagnetic field analyses. The FDTD method is one of explicit time stepping methods. The electric and magnetic fields are updated alternately in each time step. Since the calculation of the FDTD method has a large byte/flop ratio, its performance is limited by memory throughput. For a remedy of it, there is a technique called tiling, in which the analyzed domain is divided into multiple small domains. By updating electrical and magnetic fields in each small domain in multiple time steps, we can utilize cache data efficiently. However, when we implement tiling based on simple fixed size tiles, redundant calculations are required between adjacent tiles. In this paper, we propose a new tiling technique for three dimensional FDTD method without redundant calculations. This method prevents an increase in the amount of calculations by changing the position and shape of the tile at each time step. Numerical tests on a quad-core AMD Opteron processor show that the proposed three dimensional FDTD method attains up to 50 percent reduction in the calculation time compared with an ordinary implementation of the three dimensional FDTD method.
著者
小田嶋 哲哉 チャントゥァンミン 李 珍泌 朴 泰祐 佐藤 三久
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.12, pp.1-8, 2011-03-08

高い演算性能及びメモリバンド幅をもつGPUを搭載したGPUクラスタが高性能計算プラットホームとして広く利用されている.GPUクラスタではプログラミングが非常に複雑になることや,計算負荷がGPUまたはCPUのどちらかに偏り,計算リソース全体を有効利用しにくいという問題がある.そこで,分散メモリシステム向けの並列言語であるXcalableMPをGPU向けに拡張して,GPUクラスタ等のヘテロジニアス環境に適応させることを検討する.本稿ではその予備評価として,XcalableMPによるGPU/CPU協調計算を行い,典型的なHPCアプリケーションであるN体問題と行列積計算を対象に,GPUとCPUへの計算負荷分散による最適化を行い,これらによる協調計算の可能性を検討した.その結果,2ノード・2GPUのシステム上でGPUに割り当てるデータを50%から60%にしたところ,最大で約1.7倍の高速化を得ることができた.As shown in TOP500 List at November 2010, GPU clusters have been recognized as highly cost-effective HPC resources. However, the programming on GPU cluster requires much harder effort than ordinary PC clusters because of complicated heterogeneous coding with combination of CUDA/OpenCL, OpenMP and MPI, for example. In order to provide a solution for this, we will consider an extension of parallel programming language XcalableMP for GPU cluster computing. In this paper, we propose an textended notation of XcalableMP for data and process distribution in a GPU cluster. We also preliminarily evaluate the performance enhancement by a cooperated computing with GPU and multi-core CPU on typical HPC applications, N-body calculation and matrix multiplication. As a result, we confirmed the maximum of 1.7 times higher performance when we distribute the 50 to 60% of computation to GPU, compared with the case with 100% of computation only by GPU.
著者
白幡 晃一 佐藤 仁 鈴村 豊太郎 松岡 聡
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-130, no.14, pp.1-8, 2011-07-20

データ量の肥大化,ストレージの省コスト化,オンラインソーシャルネットワークの成功等に伴い大規模グラフ処理の重要性が高まっている.また,GPGPU と呼ばれる,GPU を汎用計算に応用する技術の研究・開発が進んでおり,GPU のスーパーコンピュータやクラウドへの導入が進みつつある.大規模グラフ処理ライブラリの一つに PEGASUS があり,MapReduce の反復処理によって計算することができる.GPU を利用した MapReduce 処理ライブラリの一つに Mars があるが,大規模グラフ処理に対して GPU を使用してどの程度高速化できるのか,またメモリあふれへの対処やマルチ GPU 化した場合のデータの割り振り方法は明らかではない.Mars 上にグラフ処理アプリケーション (PageRank,Random Walk with Restart,Connected Components) を実装し,PEGASUS との比較実験を行った結果,反復 1 回あたり PageRank で 2.17~9.53 倍,RWR で 2.18~5.47 倍,Connected Components で 2.41~8.46 倍の高速化がされることを確認した.
著者
田邊 昇 Boonyasitpichai Nuttapon 中條 拓伯
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.16, pp.1-10, 2010-12-09

各種プロセッサのメモリシステムにおける不連続アクセスにおける問題を解決するために筆者らは先行研究で後付けが可能な Scatter/Gather 機能を有する拡張メモリシステムを提案した。これまで Wisconsin ベンチマーク、疎行列ベクトル積などのアプリケーションで評価を行ない、有効性を示してきた。それらの評価研究では提案拡張メモリシステム側のスループットを十分にできるということが前提であった。本報告ではその前提が成り立つか否かについて、メモリシステム側のスループットの実現性を DRAMsim2 ベースのシミュレーションによって評価した。その結果、DDR3・8bit 幅・8 チャネル以上で先行研究の結果の正当性を支持する所望のスループットが得られることを確認した.In order to overcome the problems of discontinuous accessing in memory systems of various processors, we have proposed an extended memory system which has an additional function of scattering and gathering. So far, we have been evaluating our proposed system with Wisconsin benchmark suites and sparse matrix vector multiplications etc. In the evaluations, we assumed that throughput of our proposed memory system was sufficient. In this paper, we have confirmed the assumption on feasibility of throughput of the memory system is correct or not with a simulator based on DRAMsim2. As the result, we have confirmed desired throughput which can justify the proceeded results can be implemented with DDR3 of 8 bits width over 8 channels.
著者
TranMinhTuan 李珍泌 小田嶋哲哉 朴泰祐 佐藤三久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.53, pp.1-8, 2011-07-20

GPU アーキテクチャの汎用化と高速化によって,GPU クラスタは高いコストパフォーマンスと演算性能,省電力化を HPC 分野にもたらしている.これまで汎用計算における GPU の高速化効果を目的とするプログラミング言語モデルの拡張やライブラリが数多く提案されてきた.しかし,これらは GPU を搭載するシングルノード環境を対象とする拡張が多く,GPU クラスタなどのメモリ分散システムを対象とするものがまだ少ない.multi-node GPU クラスタにおける高い性能プログラミングは通常の 1 ノード内のホストーGPU の拡張だけでは不十分,それぞれのノードにまたがる GPU どうしのプログラミングも意識する必要がある.そこで,現在,我々は Partitioned Global Address Space(PGAS) プログラミングモデルをベースとした並列プログラミング言語 XcalableMP を GPU クラスタに適用可能とするための拡張を行っている.本稿では,行列積計算を対象に,GPU クラスタにおける XMP-ACC 拡張のプログラミングコストと性能について調査した.その結果,4 ノードの GPU クラスタにおいて,CPU のみを用いた XcalableMP プログラムよりも,それに数行の XMP-ACC 指示文の追加したプログラムのほうが約 42 倍の速度向上が得られた.
著者
水上 忠彦 藤井 昭宏 小柳 義夫
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.9, pp.1-5, 2011-03-08

本研究では,MPI/OpenMPハイブリッド並列モデルをAMG法に適用させた。領域分割によりMPI化し,マルチカラーガウスザイデル法によりOpenMP化を行った.特に,Reorderingによるメモリアクセスの効率化,First Touch,NUMAコントロールの三つの組み合わせを最適化し高速化を図った.評価にはT2Kオープンスパコン(東大)を利用し,評価した結果,MPI/OpenMPハイブリッド並列モデルがFlatMPIのピーク性能の1.5倍程度の性能を示し,並列度によらず,Flat MPIと同等かそれ以上の性能を発揮することが分かった.We applied and evaluated MPI/OpenMP hybrid programing model for Algebraic Multigrid (AMG) method on T2K Open Supercomputer (Tokyo). We used domain decomposition for MPI and multi-color Gauss-Seidel method for OpenMP. Our implementation uses Re-ordering, First touch, and NUMA control for better performance. Numerical tests show that the hybrid model of AMG solver 1.5 times faster than flat MPI model, and that optimized version of the hybrid model AMG solver is faster than flat MPI model for all parallelism.
著者
鈴木 克典 建部 修見
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2009, no.14, pp.49-54, 2009-02-19

本稿は我々が想定する並列ファイル転送システムにおける,ファイル転送タスクのスケジューリングアルゴリズムに関する提案である.想定システムはグリッド環境においてクラスタ間でファイル転送を行うものであり,各ノードに複数の複製が存在することを仮定する.このとき適切な複製選択,転送順序の決定,複製の動的作成を行うことで,最適な転送時間を求める.我々は,この問題を定式化し,リストアルゴリズムを基本とした手法として実装した.提案手法を評価した結果,特定のノードにのみにファイルが偏って分布している場合でも予想転送時間を短縮できることを確認した.We present a task scheduling algorithm of the parallel file transfer system. It is asuumed that the system does file transfer to and from clusters in grid environment, and two or more replicas exist in each cluster. In this situation, to optimize the transfer time, proper transfer scheduling including replica selection and dynamic replica creation should be investigated. We build a model to solve the problem and implement algorithms based on the list-algorithm. Performance evaluation shows that the proposed replica selection algorithm and the replica creation algorithm provide better result than a simple list scheduling in unevenly file distributed case.
著者
細萱 祐人 遠藤 敏夫 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.14, pp.85-90, 2009-02-19

近年,大規模計算機の消費電力のうち,メモリが占める割合が増加している.これはノードに大容量の DRAM が搭載されていることに起因しており,この DRAM の容量を小さくすることで省電力化が実現できる可能性がある.我々はスワップデバイスに FLASH メモリを使用したメモリシステムを提案しており,このシステムではアプリケーションによっては,スワップを起こしてでも電力コストの大きい DRAM の容量を小さくすることでエネルギーの削減が図れることがわかっている.しかし,エネルギーを最小とするメモリ容量はアプリケーションや問題サイズによって異なるため,アプリケーションの実行時にメモリアクセスを観察し,動的に設定する必要がある.我々は,メモリ容量を動的に変化することのできる DRAM の使用を前提とし,その選択可能なメモリ容量すべてで実行した場合のエネルギーを同時に推定する手法を提案し,エネルギーを削減する行う手法を示す.シミュレーションの結果,スワップを起こさないようにメモリ容量を選択した場合と比較して, 8% の実行時間の増加で, 25% のエネルギー削減ができることを示した.Recently, memory system is getting one of the most power consuming parts in high performance computers. This is mainly because computers are equipped with larger capacity of DRAM than applications actually need, thus there is an opportunity for reducing power by decreasing the capacity. We have already proposed a system that uses FLASH memory for the swap device, and shown that decreasing DRAM can reduce the energy with some applications, even if it causes page swapping. In such systems, the best capacity of DRAM, which achieves the lowest energy consumption, depends on characteristics of applications and problem sizes, so it is challenging to find such a capacity. We propose an algorithm that monitors the memory accesses while applications are running and optimizes the memory capacity dynamically. Our algorithm assumes that capacity of DRAM system can be controlled dynamically, and estimates energy consumption with all selectable capacities of DRAM. Through our trace driven simulation, we show that the 25% of energy consumption can be reduced with performance loss of 8%.