著者
笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.44, no.4, pp.384-392, 2003-04-15
参考文献数
7
被引用文献数
20

現在,共有メモリ型マルチプロセッサアーキテクチャは,半導体チップ上に複数のプロセッサを集積したチップマルチプロセッサから,デスクトップワークステーション,エントリレベルサーバ,スーパーコンピュータに至るまで,多くのコンピュータで採用されている.
著者
早瀬 清 吉田 裕 亀井 達也 芝原 真一 西井 修 服部 俊洋 長谷川 淳 高田 雅士 入江 直彦 内山 邦男 小高 俊彦 高田 究 木村 啓二 笠原 博徳
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. ICD, 集積回路 (ISSN:09135685)
巻号頁・発行日
vol.107, no.76, pp.31-35, 2007-05-24

低消費電力と高性能を備えた、4320MIPS4プロセッサSOCを90nmプロセスで設計した。それぞれのプロセッサには、32KBのデータキャッシュを内蔵しており、プロセッサ間のデータキャッシュのコヒーレンシを維持するためのモジュールを内蔵する。プロセッサ毎に処理量に応じた周波数制御と、プロセッサ間のデータキャッシュのコヒーレンシを維持するスリープモードの採用により、低電力を実現する。
著者
白子 準 吉田 宗弘 押山 直人 和田 康孝 中野 浩史 鹿野 裕明 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.47, no.12, pp.147-158, 2006-09-15
参考文献数
27
被引用文献数
11

半導体集積度の向上にともなう消費電力の増大,集積トランジスタ数の増化に対する処理性能向上の鈍化に対処するため,チップ上に複数のプロセッサを集積するマルチコアアーキテクチャ(チップマルチプロセッサ)が大きな注目を集めている.このようなマルチコアアーキテクチャの能力を最大限に引き出し,高実効性能・低消費電力を達成するためには,プログラムの適切な並列化に加えチップ上のリソースのきめ細かな電圧・動作周波数制御を実現するコンパイラが必要不可欠である.本論文では,各プロセッサコアが等価であるOSCARタイプのマルチコアプロセッサにおいて,各プロセッサの電源のON/OFF・周波数電圧制御(FV制御)をマルチグレイン並列化環境下でコンパイラが適切に判断し低消費電力化を行うコンパイル手法を提案する.提案手法を実装したOSCARコンパイラにより,科学技術計算とマルチメディアアプリケーションに対する評価を行った結果,SPEC CFP95 appluにおいて4プロセッサ使用時に最小実行時間を維持したまま60.7%の消費エネルギー削減,MPEG2エンコーダにおいて4プロセッサ使用時にデッドライン制約を保証したまま82.7%の消費エネルギー削減が達成された.A chip multiprocessor architecture has attracted much attention to achieve high effective performance and to save the power consumption, with the increase of transistors integrated onto a chip. To this end, the compiler is required not only to parallelize program effectively, but also to control the volatage and clock frequency of computing resources carefully. This paper proposes a power saving compiling scheme with the multigrain parallel processing environment that controls Voltage/Frequency and power supply of each core on the multiprocessor. In the evaluation, OSCAR compiler with the proposed scheme achieves 60.7 percent energy savings for SPEC CFP95 applu using 4 processors without performance degradation, and 82.7 percent energy savings for MPEG2 encoder using 4 processors added deadline constraint.
著者
笠原 博徳
雑誌
情報処理
巻号頁・発行日
vol.44, no.4, pp.384-392, 2003-04-15

現在,共有メモリ型マルチプロセッサアーキテクチャは,半導体チップ上に複数のプロセッサを集積したチップマルチプロセッサから,デスクトップワークステーション,エントリレベルサーバ,スーパーコンピュータに至るまで,多くのコンピュータで採用されている.
著者
見神 広紀 宮本 孝道 木村 啓二 笠原 博徳
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2010-ARC-187, no.22, pp.1-6, 2010-01-21

本稿ではビデオコーデックである H.264/AVC エンコーダの高速化手法としてフレームおよびマクロブロックでの階層的な並列処理を提案する.H.264/AVC エンコーダの一実装である x264 上にマクロブロックでの並列処理機能を実装し,64 コアのマルチコアシステム上での処理性能の評価を行った.その結果,2 コア集積のマルチコアである Intel Itanium2 (Montvale) を 32 基搭載した 64 コア構成の ccNUMA サーバである SGI Altix450 において,フレームでの並列処理のみの場合が 6.3 倍であったのに対しフレームおよびマクロブロックの 2 階層で行った場合は 10.6 倍の性能向上が得られた.
著者
間瀬 正啓 木村 啓二 笠原 博徳
出版者
情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.184, pp.O1-O10, 2009-08-04
参考文献数
27
被引用文献数
11

本稿ではコンパイラによる自動並列化を可能とするための C 言語の記述方法として Parallelizable C を提案する.Parallelizable C で記述した科学技術計算およびマルチメディア処理の逐次プログラム 6 本に対して OSCAR コンパイラによる自動並列化を適用し,マルチコアシステム上での処理性能の評価を行った.その結果,逐次実行時と比較して,2 コア集積のマルチコアである IBM Power5+ を 4 基搭載した 8 コア構成のサーバである IBM p5 550Q において平均 5.54 倍,4 コア集積のマルチコアである Intel Core i7 920 プロセッサを搭載した PC において平均 2.43 倍,SH-4A コアベースの情報家電用マルチコア RP2 の 4 コアを使用した SMP 実行モードにおいて平均 2.78 倍の性能向上が得られた.This paper proposes Parallelizable C, a guideline for writing C programs which enables automatic parallelization by a compiler. 6 sequential programs written in Parallelizable C from numerical and multimedia application domains are automatically parallelized by OSCAR compiler. The parallel processing performance for these applications are evaluated on multicore systems. The evaluation results show that the compiler automatic parallelization achieves average 5.54 times speedup on a 8 cores server IBM p5 550Q with 4 dual-core Power5+ processors, average 2.43 times speedup on a 4 cores multicore processor PC with Intel Core i7 920, and average 2.78 times speedup on Renesas/Hitachi/Waseda RP2 with SH-4A cores in SMP execution mode using 4 cores compared with sequential execution, respectively.
著者
中野 啓史 石坂 一久 小幡 元樹 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.76, pp.67-72, 2001-07-25
参考文献数
13
被引用文献数
3

近年のプロセッサの動作速度とメモリアクセスの速度差の拡大により,データローカリティを利用したキャッシュ最適化がますます重要となっている。また,マルチプロセッサシステム上での並列処理においては,従来のループ並列化のみの並列処理は限界を向かえつつある。そのため更なる性能向上を得るには粗粒度タスク並列処理の併用等マルチグレイン並列化が重要となっている。本稿では,Fortranプログラムをループ・サブルーチン・基本ブロックの3種類の粗粒度タスクに分割し,粗粒度タスク間の制御依存・データ依存を解析して並列性を抽出する粗粒度タスク並列処理において,粗粒度タスク間のデータ共有量を考慮してキャッシュ最適化を行う粗粒度タスクスタティックスケジューリング手法について述べる。本手法をOSCAR Fortranマルチグレイン並列化コンパイラに実装してSunUltra80(4プロセッサSMP)上で評価を行った結果,SPEC 95fpのswim,tomcatvにおいて,本手法により,Sun Forte HPC 6 update 1 の自動並列化に対してそれぞれ4.56倍,2.37倍の速度向上が得られ,本手法の有効性が確かめられた。Effective use of cache memory based on data locality is getting more important with increasing gap between the processor speed and memory access speed. As to parallel processing on multiprocessor systems, it seems to be difficult to achieve large performance improvement only with the conventional loop iteration level parallelism. This paper proposes a coarse grain task static scheduling scheme considering cache optimization. The proposed scheme is based on the macro data flow parallel processing that uses coarse grain task parallelism among tasks such as loop blocks, subroutines and basic blocks. It is implemented on OSCAR Fortran multigrain parallelizing compiler and evaluated on Sun Ultra80 four-processor SMP machine, using swim and tomcatv from the SPEC fp 95 benchmark suite. As the results, the proposed scheme gives us 4.56 times speedup for swim and 2.37 times for tomcatv respectively against the Sun Forte HPC 6 loop parallelizing compiler on 4 processors.
著者
林 明宏 和田 康孝 渡辺 岳志 関口 威 間瀬 正啓 白子 準 木村 啓二 笠原 博徳
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.5, no.1, pp.68-79, 2012-01-27

汎用CPUコアに加え特定処理を高効率で実行可能なアクセラレータを搭載したヘテロジニアスマルチコアが広く普及している.しかしながら,ヘテロジニアスマルチコアでは様々な計算資源へのタスクスケジューリングやデータ転送コード挿入等多くをプログラマが記述する必要があるためプログラミングが困難である.そこで本論文では,逐次プログラムを入力とし自動並列化コンパイラを用いることで自動的に汎用コアとアクセラレータコアにタスクを配分し,高い性能および低消費電力を実現可能なソフトウェア開発フレームワークを提案する.本手法はアクセラレータコンパイラやアクセラレータライブラリ等既存のアクセラレータ開発環境を有効に利用可能である.本フレームワークを情報家電用ヘテロジニアスマルチコアプロセッサRP-Xをターゲットとして,アクセラレータライブラリを使用し,AACエンコーダおよびOptical Flow計算の自動並列化性能および消費電力を評価した.その結果,8つの汎用CPUコアおよび4つのアクセラレータコアを使用した場合,逐次実行時と比較してOptical Flow計算で最大32倍,AACエンコーダで最大80%の電力を削減可能であることを確認し,ヘテロジニアスマルチコアを対象とした汎用的なコンパイラフレームワークを実現した.There has been a growing interest in heterogeneous multicores because heterogeneous multicores achieve high performance keeping power consumption low. However, heterogeneous multicores force programmers very difficult programming. In order to overcome such a situation, this paper proposes a compilation framework which realizes high performance and low power. This paper also evaluates processing performance and the power reduction by the proposed framework on RP-X processor. The framework attains speedups up to 32x for an optical flow program with eight general purpose processor cores and four DRP (Dynamically Reconfigurable Processor) accelerator cores against sequential execution by a single processor core and 80% of power reduction for the real-time AAC encoding when we utilize an existing accelerator library.
著者
宮沢 稔 岡本 雅巳 笠原 博徳
雑誌
全国大会講演論文集
巻号頁・発行日
vol.48, pp.25-26, 1994-03-07

マルチプロセッサシステムにおける従来のFortran自動並列化コンパイラではDo-allやDo-acrossなどのループ並列化のみが用いられていた.この場合,ループ以外の部分の並列性,たとえば基本プロック内部の並列性や,基本プロック,ループ,およびサプルーチン間の粗粒度並列性を利用することはできなかった.筆者らは以上のような間題を解決するため,従来よりマルチグレイン並列処理手法を提案してきた.これは,基本プロック,ループ,サブルーチンより定義される粗粒度タスク(マクロタスク)の並列処理(マクロデータフロ処理),中粒度並列処理(ループ並列化),細粒度並列処理を階層的適用した並列処理手法である.
著者
前田 誠司 吉田 明正 笠原 博徳
雑誌
全国大会講演論文集
巻号頁・発行日
vol.48, pp.23-24, 1994-03-07

マルチプロセッサシステム上におけるFortranプログラムの自動並列処理では、従来Doall、Doacross等のレ-プ並列化が用いられている。しかし、ル-プ並列化ではループ以外の部分の並列性を抽出することができないという問題があった。この問題点を解決するために、筆者らはステートメント間の近細粒度並列処理、ループのイタレーション間の中粒度並列処埋、サプルーチン・ループ・基本プロック間の粗粒度並列処理を階層的に組み合わせ、プログラム全域の並列性を利用するマルチグレイン並列処理をすでに捉案している。本稿では、このマルチグレイン並列処理において、各階層のタスク間データ転送オーバーヘッドを軽減するための、タスク融合を用いたデータローカライゼーション手法を提案する。また、提案手法を用いた、コンパイラはOSCAR上でインプリメントされており、本稿ではその性能評価についても述べる。
著者
赤鹿 秀樹 岡本 雅巳 宮沢 稔 安田 泰勲 笠原 博徳
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.73-74, 1996-03-06

マルチプロセッサシステムにおける従来のFortran自動並列化コンパイラではループ並列化が主に用いられていたが,プロセッサ台数の増加と共に,ループ並列化だけではスケーラブルな処理速度が望めなくなっている.そこで,筆者等は従来自動並列化が不可能であったループ以外の並列性,例えば,基本ブロック,ループ,サプルーチン間の並列性を利用した粗粒度タスクの並列処理(マクロデータフロー処理)手法および基本ブロック内部の近細粒度並列処理手法を提案している.また,筆者等は粗粒度・中粒度(ループ並列化)・近細粒度並列処理を階層的に適用する並列処理理手法であるマルチグレイン並列処理手法,さらにループ内あるいはサブルーチン内の粗粒度並列性を階層的に利用してクラスタ内部で階層的にマクロデータフロー処理を行なう階層型マクロデータフロー処理も提案している,この階層型マクロデータフロー処理では,粗粒度タスク間のスケジューリング方法として,ダイナミックスケジューリング,スタティックスケジューリングを使い分けて行なうことにより,スケジューリングの際に生じるオーバーヘッドを抑えるようにしている.本稿では,階層型マクロデータフロー処理におけるマクロタスクのスケジューリング手法について提案する.
著者
後藤隆志 武藤康平 山本英雄 平野智大 見神広紀 木村啓二 笠原博徳
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.12, pp.1-7, 2013-12-09

本論文では,スマートフォンやタブレット等で広く用いられる Android において,従来マルチコアプロセッサ上での並列化が困難で,その高速化が望まれていた 2D 描画ライブラリ Skia を,OSCAR 自動並列化コンパイラにより,プロファイラ情報に基づいた自動並列化を行う手法を開発したのでその方法を説明する.OSCAR コンパイラは Parallelizable C により記述された逐次プログラムから様々な粒度で並列化解析を行い,自動的に並列化 C ソースを出力する.しかし,Skia は Android 内のライブラリであり,利用する描画命令ルーチンにより制御フローが大きく変化するため,最適な並列化解析を行うことが困難である.そこで,本論文では Skia のような制御フローがコンパイル時に特定できないプログラムに対し,Oprofile を用いて取得したプロファイル結果を OSCAR コンパイラにフィードバックすることで,並列化対象を特定の領域に絞り,高い性能向上が得られる手法を提案する.なお,並列化対象領域が Parallelizable C コードでない場合でも,解析結果により実行コストが大きい部分から Parallelizable C に変更し,チューニングを施すことで並列化が可能となる.本手法を,描画ベンチマークとして広く使われている 0xbench を NVIDIA Tegra3 チップ (ARM Cortex-A9 4 コア) を搭載した Nexus7 上で評価を行った.並列化 Skia の実行においては,並列化部分の速度向上を正確に評価するため, Android を core0 に割り当て,残り 3 コアを Skia が利用できる形とした.評価の結果として,DrawRect で従来の 1.91 倍である 43.57 [fps],DrawArc で 1.32 倍の 50.98[fps],DrawCircle2 では 1.5 倍の 50.77[fps] といずれも性能向上結果が得られた.
著者
小幡 元樹 白子 準 神長 浩気 石坂 一久 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.4, pp.1044-1055, 2003-04-15
被引用文献数
13

従来,チップマルチプロセッサからHPCまで幅広く使われている共有メモリ型マルチプロセッサシステム上での自動並列化コンパイラではループレベル並列処理が主に用いられてきたが,その並列化技術の成熟により,ループ並列化では今後大幅な性能向上は難しいといわれている.このループ並列性の限界を越えるために,現在ループ・サブルーチン・基本ブロック間の粗粒度タスク並列性,ステートメント間の近細粒度並列性を従来のループ並列処理に加えて利用するマルチグレイン並列処理が有望視されている.マルチグレイン並列処理において各種粒度の並列性を階層的に抽出し,効率良い並列実行を実現するためには,各々の階層(ネストレベル)の並列性に応じて,何台のプロセッサ,あるいはプロセッサのグループ(プロセッサクラスタ)を割り当てるかを決定する必要がある.本論文ではプログラム中の各階層の並列性を効果的に用いるための階層的並列性制御手法を提案し,本手法を実装したOSCARマルチグレイン並列化コンパイラによる階層的並列処理の評価では,SMPサーバIBM pSeries690 Regatta 16プロセッサシステム上にてSPEC95FPベンチマークを用いた結果,逐次処理に対して1.9?10.6倍の性能向上が得られることが確かめられた.A multigrain parallel processing is very important to improve effective performance beyond the limit of the loop parallelism on a shared memory multiprocessor system.In the multi-grain parallelization, coarse grain parallelism among loops,subroutines and basic blocks,and near fine grain parallelism among statements inside a basic block are exploited in addition to the conventional loop parallelism.In order to efficiently use hierarchical parallelism of each nest level,or layer, in multigrain parallel processing,it is required to determine how many processors or groups of processors should be assigned to each layer,according to the parallelism of the layer.This paper proposes a hierarchical parallelism control scheme for multigrain parallel processing so that the parallelism of each hierarchy can be used efficiently.Performance of the hierarchical parallelization using the proposed scheme implemented on OSCAR multigrain parallelizing compiler is evaluated on IBM pSeries690 Regatta SMP server with 16 processors using SPEC95FP benchmarks and the hierarchical parallelization using the proposed scheme gave us 1.9 to 10.6 times speed up against sequential processing.
著者
後藤 隆志 武藤 康平 平野 智大 見神 広紀 高橋 宇一郎 井上 栄 木村 啓二 笠原 博徳
雑誌
研究報告組込みシステム(EMB)
巻号頁・発行日
vol.2015-EMB-36, no.34, pp.1-6, 2015-02-27

本稿では,マルチコアを搭載したスマートフォン端末において,コンパイラにより自動並列化及び低消費電力化された複数のアプリケーションを実行する際に,全体の実行時間の短縮あるいは各アプリケーション毎に設定されたデッドラインを守りつつ電力削減を達成するダイナミックスケジューリング方式について提案する.本スケジューリング手法では,コンパイル時に指定した各アプリケーションの並列実行時の利用コア数に応じた実行時間や消費電力,及びデッドラインを用いて,3種類の方式に基づくスケジューリングを行う.ARM 4 コアの端末上で動画コーデックアプリケーションを対象に評価を行い,FIFO 方式と比べ速度向上率で 18.5%,電力削減率で -28.8%の結果が得られた.
著者
中野 啓史 内藤陽介 鈴木 貴久 小高 剛 石坂 一久 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.80, pp.115-120, 2004-07-31
被引用文献数
2

現在,次世代のマイクロプロセッサアーキテクチャとして,複数のプロセッサコアを1チップ上に集積するチップマルチプロセッサ(CMP)が大きな注目を集めている.これらのCMPアーキテクチャにおいても,従来のマルチプロセッサシステムで大きな課題となっていたキャッシュやローカルメモリ等のプロセッサコア近接メモリの有効利用に関する問題は依然存在する.筆者等はこのメモリウォールの問題に対処し,高い並列性を抽出し効果的な並列処理を実現するために,マルチグレイン並列処理との協調動作により実効性能が高く価格性能比の向上を可能にするOSCAR CMPを提案している.このOSCAR CMPは,集中共有メモリ(CSM)に加え,プロセッサのプライベートデータを格納するローカルデータメモリ(LDM),プロセッサコア間の同期やデータ転送にも使用する2ポートメモリ構成の分散共有メモリ(DSM),プロセッサコアと非同期に動作可能なデータ転送ユニット(DTU)を持つ.本稿では,FORTRAN プログラムをループ・サブルーチン・基本ブロックを粗粒度タスクとする.粗粒度タスク並列処理において,配列の生死解析情報を用いて粗粒度タスクの並び替えを行い,プログラムのデータローカリティを抽出するデータローカライゼーション手法について述べる.データ転送は,コンパイラにより自動生成したDTUによるデータ転送命令を用いてバースト転送を行う.Recently, Chip Multiprocessor (CMP) architecture has attracted much attention as a next-generation microprocessor architecture, and many kinds of CMP have widely developed. However, these CMP architectures still have the problem of effective use of memory system nearby processor cores such as cache and local memory. %This problem has also been one of the most important problems for ordinary %multiprocessors. On the other hand, the authors have proposed OSCAR CMP, which cooperatively works with multigrain parallel processing, to achieve high effective performance and good cost effectiveness. To overcome the problem of effective use of cache and local memory, OSCAR CMP has local data memory (LDM) for processor private data and distributed shared memory (DSM) having two ports for synchronization and data transfer among processor cores, centralized shared memory (CSM) to support dynamic task scheduling, and data transfer unit(DTU) for asynchronous data transfer. The multigrain parallelizing compiler uses such memory architecture of OSCAR CMP with data localization scheme that fully uses compile time information. This paper proposes a coarse grain task static scheduling scheme considering data localization using live variable analysis. Data is transferred in burst mode using automatically generated DTU instructions.
著者
岡本 雅巳 合田 憲人 宮沢 稔 本多 弘樹 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.35, no.4, pp.513-521, 1994-04-15
被引用文献数
32

本論文ではFortranプログラムにおける、基本ブロック・ループ・サブルーチン間の粗粒度並列性を階層的に利用する階層型マクロデータフロー処理手法について述べる。筆者らは既に粗粒度タスク間の並列性をマクロタスクの最早実行可能条件解析を用いて自動抽出する単階層のマクロデータフロー処理手法を実現している。階層型マクロデータフロー処理は、従来の単階層マクロデータフロー処理では利用していなかったループやサブルーチン等のマクロタスク内部の粗粒度並列性も抽出することを可能にする。特に、本論文では階層型マクロデータフロー処理手法におけるマクロタスクの階層的定義手法、マクロタスク間の階層的並列性抽出手法、および階層的に定義されたマクロタスクの階層的なプロセッサクラスタヘのスケジューリング方式について述べる。また、本手法のOSCAR上での性能評価の結果についても述べる。
著者
小高 剛 中野 啓史 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.46, no.9, pp.2311-2325, 2005-09-15
被引用文献数
11 6

PC,PDA,携帯電話などで静止画像,動画像,音声などを扱うマルチメディアアプリケーションを利用する機会が近年ますます増えている.このためマルチメディアアプリケーションを効率良く処理できる低コスト,低消費電力かつ高パフォーマンスなプロセッサの必要性が増している.このような要求を満たすプロセッサアーキテクチャの1つとして複数のプロセッサコアを1チップ上に搭載したチップマルチプロセッサアーキテクチャが注目されている.しかしながら,チップマルチプロセッサアーキテクチャで効率の良い処理を行うには,アプリケーションの特性を解析し,並列性を抽出し,生成したタスクをバランス良くプロセッサに配置するなどのチップマルチプロセッサ用最適化が必要となる.また,近年のメモリウォール問題の深刻化により,プログラムの持つデータローカリティの有効利用やデータ転送オーバヘッドの削減などの最適化技術も効果的な並列処理のために必須となっている.本論文では,MPEG2エンコードに対する,チップマルチプロセッサ上でのメモリ利用最適化およびデータ転送最適化手法からなる並列処理手法の提案を行うとともに,OSCARチップマルチプロセッサ上での性能評価を行う.性能評価の結果,データローカリティの利用およびデータ転送オーバヘッド隠蔽手法からなる提案手法を適用したMPEG2エンコードは,動作周波数400MHz時で逐次実行に対し,1プロセッサ利用時1.24倍,2プロセッサ利用時2.46倍,4プロセッサ利用時4.57倍,8プロセッサ利用時7.97倍,動作周波数2.8GHz時で逐次実行に対し,1プロセッサ利用時1.36倍,2プロセッサ利用時2.61倍,4プロセッサ利用時4.46倍,8プロセッサ利用時6.54倍の速度向上率の速度向上率が得られることが確認できた.With the popularization of multimedia applications like image and audio processing on PCs, mobile phones and PDAs, development of low cost, low power consumption and high performance processors for multimedia applications has been expected. To this end, chip multiprocessor architectures that allows us to exploit multi-grain parallelism such as coarse grain level parallelism, loop level parallelism and instruction level parallelism have been extensively researched. However, to realize efficient parallel processing on chip multiprocessor architectures, sophisticated techniques are required for decomposition of a program into adequate grain of tasks, analysis of parallelism and scheduling of the tasks onto processors considering data locality. This paper describes a parallel processing scheme for MPEG2 encoding using data localization which optimizes execution efficiency assigning coarse grain tasks accessing the same array data on the same processor consecutively on a chip multiprocessor and data transfer over apping technique which minimize the data transfer overhead by overlapping task execution and data transfer. Performance of the proposed scheme is also evaluated. As the evaluation result on an OSCAR chip multiprocessor architecture, when the clock frequency is assumed as 400 MHz, the proposed scheme gave us 1.24 times speedup for 1 processor, 2.47 times speedup for 2 processors, 4.57 times speedup for 4 processors and 7.97 times speedup for 8 processors against sequential execution without the proposed scheme respectively. Similarly, when 2.8 GHz, the proposed scheme gave us 1.36 times speedup for 1 processor, 2.61 times speedup for 2 processors, 4.46 times speedup for 4 processors and 6.54 times speedup for 8 processors against sequential execution without the proposed scheme respectively.
著者
間瀬 正啓 馬場 大介 長山 晴美 田野 裕秋 益浦 健 深津幸二 宮本 孝道 白子 準 中野 啓史 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.127, pp.1-6, 2006-11-28
被引用文献数
3

マルチプロセッサ、マルチコアアーキテクチャの普及に伴い、ハイパフォーマンスコンピューティング分野から組み込み分野に至る様々な分野で、その特性を引出し高実効性能・低消費電力を実現する自動並列化コンパイラの重要性が高まっている。本稿ではプログラム全域の並列性およびデータローカリティの有効利用が可能なマルチグレイン並列処理を実現する、OSCARコンパイラのC言語対応について述べる。OSCARコンパイラにおけるC言語対応を迅速に行うために制約付きC言語を定めた。MPEG2エンコード、MP3エンコード、AACエンコードの各メディアアプリケーション、組込み向けベンチマークMiBenchよりsusan(smoothing)、SPEC2000よりartについてC言語対応OSCARコンパイラによる自動並列化の初期性能評価を行い、8プロセッササーバであるIBM p5 550上でIBM XL Cコンパイラversion 8.0の逐次処理と比較してsusan(smoothing)で最大7.49倍、4プロセッサワークステーションであるSun Ultra80上でSun Studio 9 Cコンパイラの逐次処理と比較してsusan(smoothing)で最大3.75倍の速度向上が得られた。Along with the popularization of multiprocessors and multicore architectures, automatic parallelizing compiler, which can realize high effective performance and low power comsumption, becomes more and more important in various areas from high performance computing to embedded computing. OSCAR compiler realizes multigrain automatic parallelization, which can exploit parallelism and data locality from the whole of the program. This paper describes C language support in OSCAR compiler. For rapid support of C language, restricted C language is proposed. In the preliminary performance evaluation of automatic parallelization using following media applications as MPEG2 encode, MP3 encode, and AAC encode, Susan (smoothing) derived from MiBench, and Art from SPEC2000, OSCAR compiler achieved 7.49 times speed up in maximum for susan (smoothing) against sequential execution on IBM p5 550 server having 8 processors, and 3.75 times speed up in maximum for susan (smoothing) too against sequential execution on Sun Ultra80 workstation having 4 processors.
著者
吉田 明正 前田 誠司 尾形 航 笠原 博徳
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-I, 情報・システム, I-コンピュータ (ISSN:09151915)
巻号頁・発行日
vol.78, no.2, pp.162-169, 1995-02-25
被引用文献数
3

マルチプロセッサシステム上での粗粒度並列処理手法としてマクロデータフロー処理が提案されている.従来のマクロデータフロー処理では,粗粒度タスクが実行時にプロセッサにスケジューリングされるため,粗粒度タスク間で共有されるデータを集中型共有メモリに配置し,粗粒度タスク間のデータ授受は集中型共有メモリを介して行われていた.本論文では,共有メモリを介したデータ転送オーバヘッドを軽減するため,Doallループとシーケンシャルループの間で,ローカルメモリを介したデータ授受を行うデータローカライゼーション手法を提案する.本手法では,コンパイラが,Doallループとシーケンシャルループを配列データの使用範囲が等しくなるように整合して部分ループに分割し,データ転送量の多い(データの結び付きの強い)部分ループ集合を実行時に同一プロセッサにスケジューリングしてローカルメモリを介したデータ授受を行えるような並列マシンコードを生成する.提案手法を用いたコンパイラは,マルチプロセッサシステムOSCAR上でインプリメントされており,OSCARシミュレータ上での性能評価から処理時間が20%程度短縮されることが確認された.
著者
間瀬 正啓 馬場 大介 長山 晴美 村田 雄太 木村 啓二 笠原 博徳
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. ICD, 集積回路 (ISSN:09135685)
巻号頁・発行日
vol.108, no.28, pp.69-74, 2008-05-06

本稿では,自動並列化コンパイラにより並列性抽出が可能なC言語におけるポインタ利用方法の制約について述べる.実際にこの制約を満たすようにプログラムを作成し,flow-sensitive, context-sensitiveなポインタ解析を用いた自動並列化を適用したところ,8コアSMPサーバにおいて,逐次実行と比較してSPEC2000 artで3.80倍,SPEC2006 lbmで6.17倍,MediaBench mpeg2encで5.14倍の速度向上が得られた.