- 著者
-
小高 剛
中野 啓史
木村 啓二
笠原 博徳
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.46, no.9, pp.2311-2325, 2005-09-15
- 被引用文献数
-
11
6
PC,PDA,携帯電話などで静止画像,動画像,音声などを扱うマルチメディアアプリケーションを利用する機会が近年ますます増えている.このためマルチメディアアプリケーションを効率良く処理できる低コスト,低消費電力かつ高パフォーマンスなプロセッサの必要性が増している.このような要求を満たすプロセッサアーキテクチャの1つとして複数のプロセッサコアを1チップ上に搭載したチップマルチプロセッサアーキテクチャが注目されている.しかしながら,チップマルチプロセッサアーキテクチャで効率の良い処理を行うには,アプリケーションの特性を解析し,並列性を抽出し,生成したタスクをバランス良くプロセッサに配置するなどのチップマルチプロセッサ用最適化が必要となる.また,近年のメモリウォール問題の深刻化により,プログラムの持つデータローカリティの有効利用やデータ転送オーバヘッドの削減などの最適化技術も効果的な並列処理のために必須となっている.本論文では,MPEG2エンコードに対する,チップマルチプロセッサ上でのメモリ利用最適化およびデータ転送最適化手法からなる並列処理手法の提案を行うとともに,OSCARチップマルチプロセッサ上での性能評価を行う.性能評価の結果,データローカリティの利用およびデータ転送オーバヘッド隠蔽手法からなる提案手法を適用したMPEG2エンコードは,動作周波数400MHz時で逐次実行に対し,1プロセッサ利用時1.24倍,2プロセッサ利用時2.46倍,4プロセッサ利用時4.57倍,8プロセッサ利用時7.97倍,動作周波数2.8GHz時で逐次実行に対し,1プロセッサ利用時1.36倍,2プロセッサ利用時2.61倍,4プロセッサ利用時4.46倍,8プロセッサ利用時6.54倍の速度向上率の速度向上率が得られることが確認できた.With the popularization of multimedia applications like image and audio processing on PCs, mobile phones and PDAs, development of low cost, low power consumption and high performance processors for multimedia applications has been expected. To this end, chip multiprocessor architectures that allows us to exploit multi-grain parallelism such as coarse grain level parallelism, loop level parallelism and instruction level parallelism have been extensively researched. However, to realize efficient parallel processing on chip multiprocessor architectures, sophisticated techniques are required for decomposition of a program into adequate grain of tasks, analysis of parallelism and scheduling of the tasks onto processors considering data locality. This paper describes a parallel processing scheme for MPEG2 encoding using data localization which optimizes execution efficiency assigning coarse grain tasks accessing the same array data on the same processor consecutively on a chip multiprocessor and data transfer over apping technique which minimize the data transfer overhead by overlapping task execution and data transfer. Performance of the proposed scheme is also evaluated. As the evaluation result on an OSCAR chip multiprocessor architecture, when the clock frequency is assumed as 400 MHz, the proposed scheme gave us 1.24 times speedup for 1 processor, 2.47 times speedup for 2 processors, 4.57 times speedup for 4 processors and 7.97 times speedup for 8 processors against sequential execution without the proposed scheme respectively. Similarly, when 2.8 GHz, the proposed scheme gave us 1.36 times speedup for 1 processor, 2.61 times speedup for 2 processors, 4.46 times speedup for 4 processors and 6.54 times speedup for 8 processors against sequential execution without the proposed scheme respectively.