著者
白子 準 吉田 宗弘 押山 直人 和田 康孝 中野 浩史 鹿野 裕明 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.47, no.12, pp.147-158, 2006-09-15
参考文献数
27
被引用文献数
11

半導体集積度の向上にともなう消費電力の増大,集積トランジスタ数の増化に対する処理性能向上の鈍化に対処するため,チップ上に複数のプロセッサを集積するマルチコアアーキテクチャ(チップマルチプロセッサ)が大きな注目を集めている.このようなマルチコアアーキテクチャの能力を最大限に引き出し,高実効性能・低消費電力を達成するためには,プログラムの適切な並列化に加えチップ上のリソースのきめ細かな電圧・動作周波数制御を実現するコンパイラが必要不可欠である.本論文では,各プロセッサコアが等価であるOSCARタイプのマルチコアプロセッサにおいて,各プロセッサの電源のON/OFF・周波数電圧制御(FV制御)をマルチグレイン並列化環境下でコンパイラが適切に判断し低消費電力化を行うコンパイル手法を提案する.提案手法を実装したOSCARコンパイラにより,科学技術計算とマルチメディアアプリケーションに対する評価を行った結果,SPEC CFP95 appluにおいて4プロセッサ使用時に最小実行時間を維持したまま60.7%の消費エネルギー削減,MPEG2エンコーダにおいて4プロセッサ使用時にデッドライン制約を保証したまま82.7%の消費エネルギー削減が達成された.A chip multiprocessor architecture has attracted much attention to achieve high effective performance and to save the power consumption, with the increase of transistors integrated onto a chip. To this end, the compiler is required not only to parallelize program effectively, but also to control the volatage and clock frequency of computing resources carefully. This paper proposes a power saving compiling scheme with the multigrain parallel processing environment that controls Voltage/Frequency and power supply of each core on the multiprocessor. In the evaluation, OSCAR compiler with the proposed scheme achieves 60.7 percent energy savings for SPEC CFP95 applu using 4 processors without performance degradation, and 82.7 percent energy savings for MPEG2 encoder using 4 processors added deadline constraint.
著者
林 明宏 和田 康孝 渡辺 岳志 関口 威 間瀬 正啓 白子 準 木村 啓二 笠原 博徳
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.5, no.1, pp.68-79, 2012-01-27

汎用CPUコアに加え特定処理を高効率で実行可能なアクセラレータを搭載したヘテロジニアスマルチコアが広く普及している.しかしながら,ヘテロジニアスマルチコアでは様々な計算資源へのタスクスケジューリングやデータ転送コード挿入等多くをプログラマが記述する必要があるためプログラミングが困難である.そこで本論文では,逐次プログラムを入力とし自動並列化コンパイラを用いることで自動的に汎用コアとアクセラレータコアにタスクを配分し,高い性能および低消費電力を実現可能なソフトウェア開発フレームワークを提案する.本手法はアクセラレータコンパイラやアクセラレータライブラリ等既存のアクセラレータ開発環境を有効に利用可能である.本フレームワークを情報家電用ヘテロジニアスマルチコアプロセッサRP-Xをターゲットとして,アクセラレータライブラリを使用し,AACエンコーダおよびOptical Flow計算の自動並列化性能および消費電力を評価した.その結果,8つの汎用CPUコアおよび4つのアクセラレータコアを使用した場合,逐次実行時と比較してOptical Flow計算で最大32倍,AACエンコーダで最大80%の電力を削減可能であることを確認し,ヘテロジニアスマルチコアを対象とした汎用的なコンパイラフレームワークを実現した.There has been a growing interest in heterogeneous multicores because heterogeneous multicores achieve high performance keeping power consumption low. However, heterogeneous multicores force programmers very difficult programming. In order to overcome such a situation, this paper proposes a compilation framework which realizes high performance and low power. This paper also evaluates processing performance and the power reduction by the proposed framework on RP-X processor. The framework attains speedups up to 32x for an optical flow program with eight general purpose processor cores and four DRP (Dynamically Reconfigurable Processor) accelerator cores against sequential execution by a single processor core and 80% of power reduction for the real-time AAC encoding when we utilize an existing accelerator library.
著者
小幡 元樹 白子 準 神長 浩気 石坂 一久 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.4, pp.1044-1055, 2003-04-15
被引用文献数
13

従来,チップマルチプロセッサからHPCまで幅広く使われている共有メモリ型マルチプロセッサシステム上での自動並列化コンパイラではループレベル並列処理が主に用いられてきたが,その並列化技術の成熟により,ループ並列化では今後大幅な性能向上は難しいといわれている.このループ並列性の限界を越えるために,現在ループ・サブルーチン・基本ブロック間の粗粒度タスク並列性,ステートメント間の近細粒度並列性を従来のループ並列処理に加えて利用するマルチグレイン並列処理が有望視されている.マルチグレイン並列処理において各種粒度の並列性を階層的に抽出し,効率良い並列実行を実現するためには,各々の階層(ネストレベル)の並列性に応じて,何台のプロセッサ,あるいはプロセッサのグループ(プロセッサクラスタ)を割り当てるかを決定する必要がある.本論文ではプログラム中の各階層の並列性を効果的に用いるための階層的並列性制御手法を提案し,本手法を実装したOSCARマルチグレイン並列化コンパイラによる階層的並列処理の評価では,SMPサーバIBM pSeries690 Regatta 16プロセッサシステム上にてSPEC95FPベンチマークを用いた結果,逐次処理に対して1.9?10.6倍の性能向上が得られることが確かめられた.A multigrain parallel processing is very important to improve effective performance beyond the limit of the loop parallelism on a shared memory multiprocessor system.In the multi-grain parallelization, coarse grain parallelism among loops,subroutines and basic blocks,and near fine grain parallelism among statements inside a basic block are exploited in addition to the conventional loop parallelism.In order to efficiently use hierarchical parallelism of each nest level,or layer, in multigrain parallel processing,it is required to determine how many processors or groups of processors should be assigned to each layer,according to the parallelism of the layer.This paper proposes a hierarchical parallelism control scheme for multigrain parallel processing so that the parallelism of each hierarchy can be used efficiently.Performance of the hierarchical parallelization using the proposed scheme implemented on OSCAR multigrain parallelizing compiler is evaluated on IBM pSeries690 Regatta SMP server with 16 processors using SPEC95FP benchmarks and the hierarchical parallelization using the proposed scheme gave us 1.9 to 10.6 times speed up against sequential processing.
著者
間瀬 正啓 馬場 大介 長山 晴美 田野 裕秋 益浦 健 深津幸二 宮本 孝道 白子 準 中野 啓史 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.127, pp.1-6, 2006-11-28
被引用文献数
3

マルチプロセッサ、マルチコアアーキテクチャの普及に伴い、ハイパフォーマンスコンピューティング分野から組み込み分野に至る様々な分野で、その特性を引出し高実効性能・低消費電力を実現する自動並列化コンパイラの重要性が高まっている。本稿ではプログラム全域の並列性およびデータローカリティの有効利用が可能なマルチグレイン並列処理を実現する、OSCARコンパイラのC言語対応について述べる。OSCARコンパイラにおけるC言語対応を迅速に行うために制約付きC言語を定めた。MPEG2エンコード、MP3エンコード、AACエンコードの各メディアアプリケーション、組込み向けベンチマークMiBenchよりsusan(smoothing)、SPEC2000よりartについてC言語対応OSCARコンパイラによる自動並列化の初期性能評価を行い、8プロセッササーバであるIBM p5 550上でIBM XL Cコンパイラversion 8.0の逐次処理と比較してsusan(smoothing)で最大7.49倍、4プロセッサワークステーションであるSun Ultra80上でSun Studio 9 Cコンパイラの逐次処理と比較してsusan(smoothing)で最大3.75倍の速度向上が得られた。Along with the popularization of multiprocessors and multicore architectures, automatic parallelizing compiler, which can realize high effective performance and low power comsumption, becomes more and more important in various areas from high performance computing to embedded computing. OSCAR compiler realizes multigrain automatic parallelization, which can exploit parallelism and data locality from the whole of the program. This paper describes C language support in OSCAR compiler. For rapid support of C language, restricted C language is proposed. In the preliminary performance evaluation of automatic parallelization using following media applications as MPEG2 encode, MP3 encode, and AAC encode, Susan (smoothing) derived from MiBench, and Art from SPEC2000, OSCAR compiler achieved 7.49 times speed up in maximum for susan (smoothing) against sequential execution on IBM p5 550 server having 8 processors, and 3.75 times speed up in maximum for susan (smoothing) too against sequential execution on Sun Ultra80 workstation having 4 processors.