著者
中野 啓史 石坂 一久 小幡 元樹 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.76, pp.67-72, 2001-07-25
参考文献数
13
被引用文献数
3

近年のプロセッサの動作速度とメモリアクセスの速度差の拡大により,データローカリティを利用したキャッシュ最適化がますます重要となっている。また,マルチプロセッサシステム上での並列処理においては,従来のループ並列化のみの並列処理は限界を向かえつつある。そのため更なる性能向上を得るには粗粒度タスク並列処理の併用等マルチグレイン並列化が重要となっている。本稿では,Fortranプログラムをループ・サブルーチン・基本ブロックの3種類の粗粒度タスクに分割し,粗粒度タスク間の制御依存・データ依存を解析して並列性を抽出する粗粒度タスク並列処理において,粗粒度タスク間のデータ共有量を考慮してキャッシュ最適化を行う粗粒度タスクスタティックスケジューリング手法について述べる。本手法をOSCAR Fortranマルチグレイン並列化コンパイラに実装してSunUltra80(4プロセッサSMP)上で評価を行った結果,SPEC 95fpのswim,tomcatvにおいて,本手法により,Sun Forte HPC 6 update 1 の自動並列化に対してそれぞれ4.56倍,2.37倍の速度向上が得られ,本手法の有効性が確かめられた。Effective use of cache memory based on data locality is getting more important with increasing gap between the processor speed and memory access speed. As to parallel processing on multiprocessor systems, it seems to be difficult to achieve large performance improvement only with the conventional loop iteration level parallelism. This paper proposes a coarse grain task static scheduling scheme considering cache optimization. The proposed scheme is based on the macro data flow parallel processing that uses coarse grain task parallelism among tasks such as loop blocks, subroutines and basic blocks. It is implemented on OSCAR Fortran multigrain parallelizing compiler and evaluated on Sun Ultra80 four-processor SMP machine, using swim and tomcatv from the SPEC fp 95 benchmark suite. As the results, the proposed scheme gives us 4.56 times speedup for swim and 2.37 times for tomcatv respectively against the Sun Forte HPC 6 loop parallelizing compiler on 4 processors.
著者
中野 啓史 内藤陽介 鈴木 貴久 小高 剛 石坂 一久 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.80, pp.115-120, 2004-07-31
被引用文献数
2

現在,次世代のマイクロプロセッサアーキテクチャとして,複数のプロセッサコアを1チップ上に集積するチップマルチプロセッサ(CMP)が大きな注目を集めている.これらのCMPアーキテクチャにおいても,従来のマルチプロセッサシステムで大きな課題となっていたキャッシュやローカルメモリ等のプロセッサコア近接メモリの有効利用に関する問題は依然存在する.筆者等はこのメモリウォールの問題に対処し,高い並列性を抽出し効果的な並列処理を実現するために,マルチグレイン並列処理との協調動作により実効性能が高く価格性能比の向上を可能にするOSCAR CMPを提案している.このOSCAR CMPは,集中共有メモリ(CSM)に加え,プロセッサのプライベートデータを格納するローカルデータメモリ(LDM),プロセッサコア間の同期やデータ転送にも使用する2ポートメモリ構成の分散共有メモリ(DSM),プロセッサコアと非同期に動作可能なデータ転送ユニット(DTU)を持つ.本稿では,FORTRAN プログラムをループ・サブルーチン・基本ブロックを粗粒度タスクとする.粗粒度タスク並列処理において,配列の生死解析情報を用いて粗粒度タスクの並び替えを行い,プログラムのデータローカリティを抽出するデータローカライゼーション手法について述べる.データ転送は,コンパイラにより自動生成したDTUによるデータ転送命令を用いてバースト転送を行う.Recently, Chip Multiprocessor (CMP) architecture has attracted much attention as a next-generation microprocessor architecture, and many kinds of CMP have widely developed. However, these CMP architectures still have the problem of effective use of memory system nearby processor cores such as cache and local memory. %This problem has also been one of the most important problems for ordinary %multiprocessors. On the other hand, the authors have proposed OSCAR CMP, which cooperatively works with multigrain parallel processing, to achieve high effective performance and good cost effectiveness. To overcome the problem of effective use of cache and local memory, OSCAR CMP has local data memory (LDM) for processor private data and distributed shared memory (DSM) having two ports for synchronization and data transfer among processor cores, centralized shared memory (CSM) to support dynamic task scheduling, and data transfer unit(DTU) for asynchronous data transfer. The multigrain parallelizing compiler uses such memory architecture of OSCAR CMP with data localization scheme that fully uses compile time information. This paper proposes a coarse grain task static scheduling scheme considering data localization using live variable analysis. Data is transferred in burst mode using automatically generated DTU instructions.
著者
小高 剛 中野 啓史 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.46, no.9, pp.2311-2325, 2005-09-15
被引用文献数
11 6

PC,PDA,携帯電話などで静止画像,動画像,音声などを扱うマルチメディアアプリケーションを利用する機会が近年ますます増えている.このためマルチメディアアプリケーションを効率良く処理できる低コスト,低消費電力かつ高パフォーマンスなプロセッサの必要性が増している.このような要求を満たすプロセッサアーキテクチャの1つとして複数のプロセッサコアを1チップ上に搭載したチップマルチプロセッサアーキテクチャが注目されている.しかしながら,チップマルチプロセッサアーキテクチャで効率の良い処理を行うには,アプリケーションの特性を解析し,並列性を抽出し,生成したタスクをバランス良くプロセッサに配置するなどのチップマルチプロセッサ用最適化が必要となる.また,近年のメモリウォール問題の深刻化により,プログラムの持つデータローカリティの有効利用やデータ転送オーバヘッドの削減などの最適化技術も効果的な並列処理のために必須となっている.本論文では,MPEG2エンコードに対する,チップマルチプロセッサ上でのメモリ利用最適化およびデータ転送最適化手法からなる並列処理手法の提案を行うとともに,OSCARチップマルチプロセッサ上での性能評価を行う.性能評価の結果,データローカリティの利用およびデータ転送オーバヘッド隠蔽手法からなる提案手法を適用したMPEG2エンコードは,動作周波数400MHz時で逐次実行に対し,1プロセッサ利用時1.24倍,2プロセッサ利用時2.46倍,4プロセッサ利用時4.57倍,8プロセッサ利用時7.97倍,動作周波数2.8GHz時で逐次実行に対し,1プロセッサ利用時1.36倍,2プロセッサ利用時2.61倍,4プロセッサ利用時4.46倍,8プロセッサ利用時6.54倍の速度向上率の速度向上率が得られることが確認できた.With the popularization of multimedia applications like image and audio processing on PCs, mobile phones and PDAs, development of low cost, low power consumption and high performance processors for multimedia applications has been expected. To this end, chip multiprocessor architectures that allows us to exploit multi-grain parallelism such as coarse grain level parallelism, loop level parallelism and instruction level parallelism have been extensively researched. However, to realize efficient parallel processing on chip multiprocessor architectures, sophisticated techniques are required for decomposition of a program into adequate grain of tasks, analysis of parallelism and scheduling of the tasks onto processors considering data locality. This paper describes a parallel processing scheme for MPEG2 encoding using data localization which optimizes execution efficiency assigning coarse grain tasks accessing the same array data on the same processor consecutively on a chip multiprocessor and data transfer over apping technique which minimize the data transfer overhead by overlapping task execution and data transfer. Performance of the proposed scheme is also evaluated. As the evaluation result on an OSCAR chip multiprocessor architecture, when the clock frequency is assumed as 400 MHz, the proposed scheme gave us 1.24 times speedup for 1 processor, 2.47 times speedup for 2 processors, 4.57 times speedup for 4 processors and 7.97 times speedup for 8 processors against sequential execution without the proposed scheme respectively. Similarly, when 2.8 GHz, the proposed scheme gave us 1.36 times speedup for 1 processor, 2.61 times speedup for 2 processors, 4.46 times speedup for 4 processors and 6.54 times speedup for 8 processors against sequential execution without the proposed scheme respectively.
著者
間瀬 正啓 馬場 大介 長山 晴美 田野 裕秋 益浦 健 深津幸二 宮本 孝道 白子 準 中野 啓史 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.127, pp.1-6, 2006-11-28
被引用文献数
3

マルチプロセッサ、マルチコアアーキテクチャの普及に伴い、ハイパフォーマンスコンピューティング分野から組み込み分野に至る様々な分野で、その特性を引出し高実効性能・低消費電力を実現する自動並列化コンパイラの重要性が高まっている。本稿ではプログラム全域の並列性およびデータローカリティの有効利用が可能なマルチグレイン並列処理を実現する、OSCARコンパイラのC言語対応について述べる。OSCARコンパイラにおけるC言語対応を迅速に行うために制約付きC言語を定めた。MPEG2エンコード、MP3エンコード、AACエンコードの各メディアアプリケーション、組込み向けベンチマークMiBenchよりsusan(smoothing)、SPEC2000よりartについてC言語対応OSCARコンパイラによる自動並列化の初期性能評価を行い、8プロセッササーバであるIBM p5 550上でIBM XL Cコンパイラversion 8.0の逐次処理と比較してsusan(smoothing)で最大7.49倍、4プロセッサワークステーションであるSun Ultra80上でSun Studio 9 Cコンパイラの逐次処理と比較してsusan(smoothing)で最大3.75倍の速度向上が得られた。Along with the popularization of multiprocessors and multicore architectures, automatic parallelizing compiler, which can realize high effective performance and low power comsumption, becomes more and more important in various areas from high performance computing to embedded computing. OSCAR compiler realizes multigrain automatic parallelization, which can exploit parallelism and data locality from the whole of the program. This paper describes C language support in OSCAR compiler. For rapid support of C language, restricted C language is proposed. In the preliminary performance evaluation of automatic parallelization using following media applications as MPEG2 encode, MP3 encode, and AAC encode, Susan (smoothing) derived from MiBench, and Art from SPEC2000, OSCAR compiler achieved 7.49 times speed up in maximum for susan (smoothing) against sequential execution on IBM p5 550 server having 8 processors, and 3.75 times speed up in maximum for susan (smoothing) too against sequential execution on Sun Ultra80 workstation having 4 processors.
著者
石坂 一久 中野 啓史 八木 哲志 小幡 元樹 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.4, pp.958-970, 2002-04-15
被引用文献数
19

主記憶共有型マルチプロセッサシステムは幅広く使われているが,プロセッサ数の増加にともないその最大性能と実効性能の差が拡大してきている.このような問題を解決するためには,従来のループ並列処理に加えて,粗粒度タスク並列性,近細粒度並列性などのマルチグレイン並列性の利用が重要な技術である.また,プロセッサ技術の進歩とともに,プロセッサとメモリの速度差が顕在化し,その速度差を補うためのメモリ階層,特にキャッシュの有効利用は,マルチプロセッサシステムの性能向上に重要な要因となっている.本論文では,ループ並列化に加えプログラムを基本ブロック,ループ,サブルーチンといった粗粒度タスク(マクロタスク)に分割し,それらの間の並列性を効果的に利用するとともに,従来OSCAR型マルチプロセッサアーキテクチャにおけるローカルメモリおよび分散共有メモリ用に提案されていたデータローカライゼーション手法を主記憶共有型マルチプロセッサ上のキャッシュ最適化用に発展させたデータ分散・ダイナミックスケジューリング手法を提案する.本手法はOSCARマルチグレインコンパイラ上で実現され,逐次FORTRANプログラムを入力すると,共有メモリマシンにおける標準APIであるOpenMPを用いて複数マクロタスク間でキャッシュ上の共有データを再利用する並列化コードを自動生成する.本手法の評価を商用SMPマシンであるIBM RS/6000 604e High Node,Sun Ultra80上でspec95fpベンチマークのtomcatv,swim,mgridを用いて行った結果,IBM RS/6000上ではIBM XL FORTRAN version 6.1コンパイラの自動ループ並列化を行った場合の最小実行時間に対して本手法は最大5.8倍の性能向上を示し,Sun Ultra80上ではSun Forte 6 update 1コンパイラの最小時間に対して最大3.6倍の性能向上が得られることが確かめられた.In multiprocessor systems,the gap between peak and effective performance has getting larger.To cope with this performance gap,it is important to use multigrain parallelismin addition to ordinary loop level parallelism.Also, effective use of memory hierarchy is importantfor the performance improvement of multiprocessor systemsbecause the speed gap between processors and memories is gettinglarger.This paper describes coarse grain task parallel processingthat uses parallelism among macro-tasks like loops and subroutinesconsidering cache optimization using data localization scheme.The proposed scheme is implemented on OSCAR automatic multigrainparallelizing compiler. OSCAR compiler generates OpenMP FORTRAN programrealizing the proposed scheme from an ordinary FORTRAN77 program.Its performance is evaluated on IBM RS6000SP 604e High Node 8 processors SMP machine and Sun Ultra80 4 processors SMP machine.In the evaluation,OSCAR compiler gives us up to 5.8 times speedup againstthe minimum execution time of IBM XL FORTRAN compiler on IBM RS/6000 and up to 3.6 times speedup against Sun Forte 6 update 1 compileron Sun Ultra80.