著者
大島 堅一 植田 和弘 稲田 義久 金森 絵里 竹濱 朝美 安田 陽 高村 ゆかり 上園 昌武 歌川 学 高橋 洋 木村 啓二 櫻井 啓一郎
出版者
立命館大学
雑誌
基盤研究(A)
巻号頁・発行日
2012-04-01

日本の地域分散型エネルギーシステムへの移行には次の方策が必要である。第1に経済性向上のための対策が必要である。分散型エネルギーの経済性を高めるには、技術革新と制度改革とを並行して進める必要がある。第2に、分散型エネルギー中心の電力システムに改革するには、変動電源の安定化やデマンド・レスポンスなどの対策を効果的に講じなければならない。第3に、政策転換の不確実性の克服である。この際、集中型エネルギーシステムと分散型エネルギーシステムとの間で政策的バランスを取る必要もある。第4に、公正かつ中立的な電力市場をつくる必要がある。
著者
西田 耀 木村 啓二
雑誌
研究報告組込みシステム(EMB) (ISSN:2188868X)
巻号頁・発行日
vol.2020-EMB-53, no.14, pp.1-6, 2020-02-20

アプリケーションの耐障害性を向上させる手法の一つにチェックポインティングがある.これまでに,アプリケーションを変更することなく透過的にチェックポイントを行う手法がいくつか発表されている.また,Non-volatile DIMM (NVDIMM) を状態の保存先として利用することで,主記憶に比べて 100 倍以上遅い外部記憶へのアクセスに依存することなくチェックポイントを行う手法が提案されている.しかし,DRAM で構成された主記憶から不揮発性の記憶装置に状態をコピーするという操作は依然存在しており,これがチェックポイントのオーバーヘッドの大部分を占めている.本研究では,アプリケーションを NVDIMM 上に直接マッピングして実行することで状態のコピーを最小限に抑え,さらにページテーブルも含めたプロセスのメモリ空間を二重化して一貫性を確保しつつチェックポインティングを行う,NDCKPT という手法を提案する.Linux Kernel に NDCKPT を実装し,Optane DC Persistent Memory を用いて評価を行った結果,メモリ消費量が 1MB 程度のアプリケーションでは,100ms 程度の高頻度でチェックポイントを行っても実行時間の増加を 1% 以下に抑えられることがわかった.また,数百 MB のメモリを消費するアプリケーションにおいては,NVDIMM 上で実行を行うオーバーヘッドが支配的で実行時間比で 2 倍から 3 倍以上となる一方,チェックポイントによって加わるオーバーヘッドは 20-30 秒間隔で 10% 前後となることがわかった.
著者
大島 堅一 上園 昌武 木村 啓二 歌川 学 稲田 義久 林 大祐 竹濱 朝美 安田 陽 高村 ゆかり 金森 絵里 高橋 洋
出版者
龍谷大学
雑誌
基盤研究(A)
巻号頁・発行日
2016-04-01

1.システム改革と市場設計に関する研究:電力システム改革の背景にあるエネルギー転換や世界的なエネルギー政策の構造改革について調査し、日本の状況との比較検討を行った。また、エネルギー転換の一環として世界的に盛り上がる国際連系線について、電力システム改革の観点から研究した。2.地域分散型エネルギーの普及、省エネルギーの促進政策研究:地域分散型エネルギーの普及については、特に欧州の国際連系線の潮流分析や市場取引状況について定量的評価を行なった。また国内の系統連系問題に関して主に不適切なリスク転嫁の観点から、参入障壁について分析を行った。 省エネルギーの促進政策の研究については、対策技術種類と可能性、対策の地域経済効果、技術普及の際の専門的知見活用法について検討した。3.新しいビジネスと電力会社の経営への影響に関する研究:電力の小売全面自由化の影響にいて整理・分析し、その研究成果の一部を「会計面からみた小売電気事業者の動向」として学会報告した。加えて2020年4月からの発送電分離と小売部門における規制料金の撤廃の電力会社の経営面に与える影響について制度面ならびに国際比較の観点から分析を行った。4.エネルギーコストに関する研究:昨年度の研究成果を踏まえて、風力発電事業者複数社等への追加ヒアリング調査を行い、疑問点の解決を図った。加えて、原子力のコストについて、現時点での新たな知見に基づく再計算と、電力システム改革下における原子力支援策についての分析を行った。5.経済的インパクトに関する研究: 2005年版福島県産業連関表を拡張し、再生可能エネルギー発電部門を明示化する作業を行い、拡張産業連関表の「雛形」を完成させた。これを福島県の実情を反映したものにするための準備作業として、風力、太陽光、小水力、バイオマス、地熱の業界団体・専門家に対してヒアリングを行った。
著者
早瀬 清 吉田 裕 亀井 達也 芝原 真一 西井 修 服部 俊洋 長谷川 淳 高田 雅士 入江 直彦 内山 邦男 小高 俊彦 高田 究 木村 啓二 笠原 博徳
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. ICD, 集積回路 (ISSN:09135685)
巻号頁・発行日
vol.107, no.76, pp.31-35, 2007-05-24

低消費電力と高性能を備えた、4320MIPS4プロセッサSOCを90nmプロセスで設計した。それぞれのプロセッサには、32KBのデータキャッシュを内蔵しており、プロセッサ間のデータキャッシュのコヒーレンシを維持するためのモジュールを内蔵する。プロセッサ毎に処理量に応じた周波数制御と、プロセッサ間のデータキャッシュのコヒーレンシを維持するスリープモードの採用により、低電力を実現する。
著者
白子 準 吉田 宗弘 押山 直人 和田 康孝 中野 浩史 鹿野 裕明 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.47, no.12, pp.147-158, 2006-09-15
参考文献数
27
被引用文献数
11

半導体集積度の向上にともなう消費電力の増大,集積トランジスタ数の増化に対する処理性能向上の鈍化に対処するため,チップ上に複数のプロセッサを集積するマルチコアアーキテクチャ(チップマルチプロセッサ)が大きな注目を集めている.このようなマルチコアアーキテクチャの能力を最大限に引き出し,高実効性能・低消費電力を達成するためには,プログラムの適切な並列化に加えチップ上のリソースのきめ細かな電圧・動作周波数制御を実現するコンパイラが必要不可欠である.本論文では,各プロセッサコアが等価であるOSCARタイプのマルチコアプロセッサにおいて,各プロセッサの電源のON/OFF・周波数電圧制御(FV制御)をマルチグレイン並列化環境下でコンパイラが適切に判断し低消費電力化を行うコンパイル手法を提案する.提案手法を実装したOSCARコンパイラにより,科学技術計算とマルチメディアアプリケーションに対する評価を行った結果,SPEC CFP95 appluにおいて4プロセッサ使用時に最小実行時間を維持したまま60.7%の消費エネルギー削減,MPEG2エンコーダにおいて4プロセッサ使用時にデッドライン制約を保証したまま82.7%の消費エネルギー削減が達成された.A chip multiprocessor architecture has attracted much attention to achieve high effective performance and to save the power consumption, with the increase of transistors integrated onto a chip. To this end, the compiler is required not only to parallelize program effectively, but also to control the volatage and clock frequency of computing resources carefully. This paper proposes a power saving compiling scheme with the multigrain parallel processing environment that controls Voltage/Frequency and power supply of each core on the multiprocessor. In the evaluation, OSCAR compiler with the proposed scheme achieves 60.7 percent energy savings for SPEC CFP95 applu using 4 processors without performance degradation, and 82.7 percent energy savings for MPEG2 encoder using 4 processors added deadline constraint.
著者
西 将輝 宍戸 哲平 李 欣怡 木村 啓二 佐野 健太郎
雑誌
研究報告組込みシステム(EMB) (ISSN:2188868X)
巻号頁・発行日
vol.2023-EMB-62, no.7, pp.1-6, 2023-03-16

深層学習が様々な場面で利用されるようになり,それと共に学習データや入力データ,推論結果,さらには学習モデルの保護が問題となりつつある.そのため,データを暗号化したまま演算処理できる準同型暗号による深層学習が注目されている.しかしながら,準同型暗号による演算コストは高く,これまでに, 並列化やハードウェアアクセラレータの利用といった様々な高速化手法が提案されている.一方筆者等は,深層学習の推論処理において多くのビット数が必要としないことに注目し,ビット削減版準同型暗号を利用した深層学習推論を提案してきた.本稿ではまず,ビット削減版の深層学習処理を準同型暗号ライブラリ SEAL とSEAL を用いた深層学習フレームワーク HE-Transformer に実装し,Intel Xeon プロセッサ上で評価した.さらに,富士通 A64FX 上でビット削減版準同型暗号を実装し評価を行なった.評価の結果,CryptoNets を用いた MNIST データセットの分類においてオリジナルの nGraph-HE2 に対し Intel Xeon 上で最大で 9.37 倍の速度向上が得られた.また,富士通 A64FX 上で行列積を評価した結果,Intel Xeon W-2145 と比較して,最大 1.08 倍の速度向上が得られた.
著者
高橋 俊明 井根 省二 竹内 雅治 伏見 悦子 関口 展代 木村 啓二 林 雅人 斉藤 昌宏 高橋 さつき
出版者
一般社団法人 日本農村医学会
雑誌
日本農村医学会雑誌 (ISSN:04682513)
巻号頁・発行日
vol.52, no.4, pp.749-754, 2003 (Released:2005-03-29)
参考文献数
15

1995年から2001年の6年間に4例の劇症型心筋炎 (男2例, 女2例, 年齢21~67歳) を経験した。診断は臨床症状, 心電図, 心エコー所見などから総合的に行い, 3例では病理学的に確定診断された。4例全例が発熱などの感冒症状で発症し, 1例は心肺停止で来院し, 蘇生できなかった。残り3例は初発から5~7日後にショック状態で入院し, 一時ペーシング, カテコラミン, ステロイドパルス療法, そのうち1例では経皮的心肺補助 (PCPS) を導入したが, 3例とも入院1~10日後死亡した。心電図では心室調律, 異常Q波, ST上昇, 低電位を呈した。血清酵素の著明な上昇, 代謝性アシドーシス, DICは予後不良の徴候と考えられた。劇症型心筋炎の救命のためには, まず本症を早期に的確に診断すること, そして積極的に補助循環を導入し, 急性期を乗り切ることに尽きる。
著者
大森 侑 木村 啓二
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2021-ARC-244, no.1, pp.1-10, 2021-03-18

バイトアクセス可能な不揮発性メモリ素子で構成された不揮発性メモリ(NVMM)が注目を集めている.NVMM は従来の主記憶に比べて記憶容量や消費電力に優れ,補助記憶と同じく不揮発でありながら高度なデバイスドライバを経由せずアクセスできる.その反面,レイテンシの大きさやリード性能とライト性能の非対称性などの特性を持つ.NVMM の性能と特性を十分に活かすには,ハードウェア・ソフトウェアの両面からシステムが最適化される必要がある.これに対し筆者等は,複数の NVMM アーキテクチャを柔軟かつ詳細に評価可能な NVMM エミュレータを ARM コアを持つ FPGA 評価ボード上に実装し,OS を含めたシステム全体を実用的な時間で評価できる環境を構築した.本稿では,RISC-V CPU を持ち Linux が動作する RISC-V NVMM エミュレータを提案する.本エミュレータは RISC-V コアを持つオープンソースの SoC をベースのデザインとして採用することにより,CPU コアの改変が可能であり,また,信頼実行環境(Trusted Execution Environment: TEE)である Keystone が利用可能となる.本エミュレータの NVM エミュレーション機構は,ARM ベースのエミュレータで使用していた高速なハード CPU の使用を前提とする手法を改良し,低速なソフト CPU でも局所性等のメモリアクセス特性を反映した評価を可能とする.さらに,ユーザ空間からのキャッシュ制御も可能とする.本エミュレータの Linux 及び Debian OS の動作確認後,Debian 上で SPEC CPU 2017 ベンチマークを用いた評価を行い,提案手法のみが局所性やリード・ライト比の NVMM 向け最適化手法で考慮されるべきアクセス特性を十分に反映できることを確認した.
著者
見神 広紀 宮本 孝道 木村 啓二 笠原 博徳
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2010-ARC-187, no.22, pp.1-6, 2010-01-21

本稿ではビデオコーデックである H.264/AVC エンコーダの高速化手法としてフレームおよびマクロブロックでの階層的な並列処理を提案する.H.264/AVC エンコーダの一実装である x264 上にマクロブロックでの並列処理機能を実装し,64 コアのマルチコアシステム上での処理性能の評価を行った.その結果,2 コア集積のマルチコアである Intel Itanium2 (Montvale) を 32 基搭載した 64 コア構成の ccNUMA サーバである SGI Altix450 において,フレームでの並列処理のみの場合が 6.3 倍であったのに対しフレームおよびマクロブロックの 2 階層で行った場合は 10.6 倍の性能向上が得られた.
著者
間瀬 正啓 木村 啓二 笠原 博徳
出版者
情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.184, pp.O1-O10, 2009-08-04
参考文献数
27
被引用文献数
11

本稿ではコンパイラによる自動並列化を可能とするための C 言語の記述方法として Parallelizable C を提案する.Parallelizable C で記述した科学技術計算およびマルチメディア処理の逐次プログラム 6 本に対して OSCAR コンパイラによる自動並列化を適用し,マルチコアシステム上での処理性能の評価を行った.その結果,逐次実行時と比較して,2 コア集積のマルチコアである IBM Power5+ を 4 基搭載した 8 コア構成のサーバである IBM p5 550Q において平均 5.54 倍,4 コア集積のマルチコアである Intel Core i7 920 プロセッサを搭載した PC において平均 2.43 倍,SH-4A コアベースの情報家電用マルチコア RP2 の 4 コアを使用した SMP 実行モードにおいて平均 2.78 倍の性能向上が得られた.This paper proposes Parallelizable C, a guideline for writing C programs which enables automatic parallelization by a compiler. 6 sequential programs written in Parallelizable C from numerical and multimedia application domains are automatically parallelized by OSCAR compiler. The parallel processing performance for these applications are evaluated on multicore systems. The evaluation results show that the compiler automatic parallelization achieves average 5.54 times speedup on a 8 cores server IBM p5 550Q with 4 dual-core Power5+ processors, average 2.43 times speedup on a 4 cores multicore processor PC with Intel Core i7 920, and average 2.78 times speedup on Renesas/Hitachi/Waseda RP2 with SH-4A cores in SMP execution mode using 4 cores compared with sequential execution, respectively.
著者
中野 啓史 石坂 一久 小幡 元樹 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.76, pp.67-72, 2001-07-25
参考文献数
13
被引用文献数
3

近年のプロセッサの動作速度とメモリアクセスの速度差の拡大により,データローカリティを利用したキャッシュ最適化がますます重要となっている。また,マルチプロセッサシステム上での並列処理においては,従来のループ並列化のみの並列処理は限界を向かえつつある。そのため更なる性能向上を得るには粗粒度タスク並列処理の併用等マルチグレイン並列化が重要となっている。本稿では,Fortranプログラムをループ・サブルーチン・基本ブロックの3種類の粗粒度タスクに分割し,粗粒度タスク間の制御依存・データ依存を解析して並列性を抽出する粗粒度タスク並列処理において,粗粒度タスク間のデータ共有量を考慮してキャッシュ最適化を行う粗粒度タスクスタティックスケジューリング手法について述べる。本手法をOSCAR Fortranマルチグレイン並列化コンパイラに実装してSunUltra80(4プロセッサSMP)上で評価を行った結果,SPEC 95fpのswim,tomcatvにおいて,本手法により,Sun Forte HPC 6 update 1 の自動並列化に対してそれぞれ4.56倍,2.37倍の速度向上が得られ,本手法の有効性が確かめられた。Effective use of cache memory based on data locality is getting more important with increasing gap between the processor speed and memory access speed. As to parallel processing on multiprocessor systems, it seems to be difficult to achieve large performance improvement only with the conventional loop iteration level parallelism. This paper proposes a coarse grain task static scheduling scheme considering cache optimization. The proposed scheme is based on the macro data flow parallel processing that uses coarse grain task parallelism among tasks such as loop blocks, subroutines and basic blocks. It is implemented on OSCAR Fortran multigrain parallelizing compiler and evaluated on Sun Ultra80 four-processor SMP machine, using swim and tomcatv from the SPEC fp 95 benchmark suite. As the results, the proposed scheme gives us 4.56 times speedup for swim and 2.37 times for tomcatv respectively against the Sun Forte HPC 6 loop parallelizing compiler on 4 processors.
著者
林 明宏 和田 康孝 渡辺 岳志 関口 威 間瀬 正啓 白子 準 木村 啓二 笠原 博徳
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.5, no.1, pp.68-79, 2012-01-27

汎用CPUコアに加え特定処理を高効率で実行可能なアクセラレータを搭載したヘテロジニアスマルチコアが広く普及している.しかしながら,ヘテロジニアスマルチコアでは様々な計算資源へのタスクスケジューリングやデータ転送コード挿入等多くをプログラマが記述する必要があるためプログラミングが困難である.そこで本論文では,逐次プログラムを入力とし自動並列化コンパイラを用いることで自動的に汎用コアとアクセラレータコアにタスクを配分し,高い性能および低消費電力を実現可能なソフトウェア開発フレームワークを提案する.本手法はアクセラレータコンパイラやアクセラレータライブラリ等既存のアクセラレータ開発環境を有効に利用可能である.本フレームワークを情報家電用ヘテロジニアスマルチコアプロセッサRP-Xをターゲットとして,アクセラレータライブラリを使用し,AACエンコーダおよびOptical Flow計算の自動並列化性能および消費電力を評価した.その結果,8つの汎用CPUコアおよび4つのアクセラレータコアを使用した場合,逐次実行時と比較してOptical Flow計算で最大32倍,AACエンコーダで最大80%の電力を削減可能であることを確認し,ヘテロジニアスマルチコアを対象とした汎用的なコンパイラフレームワークを実現した.There has been a growing interest in heterogeneous multicores because heterogeneous multicores achieve high performance keeping power consumption low. However, heterogeneous multicores force programmers very difficult programming. In order to overcome such a situation, this paper proposes a compilation framework which realizes high performance and low power. This paper also evaluates processing performance and the power reduction by the proposed framework on RP-X processor. The framework attains speedups up to 32x for an optical flow program with eight general purpose processor cores and four DRP (Dynamically Reconfigurable Processor) accelerator cores against sequential execution by a single processor core and 80% of power reduction for the real-time AAC encoding when we utilize an existing accelerator library.
著者
後藤隆志 武藤康平 山本英雄 平野智大 見神広紀 木村啓二 笠原博徳
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.12, pp.1-7, 2013-12-09

本論文では,スマートフォンやタブレット等で広く用いられる Android において,従来マルチコアプロセッサ上での並列化が困難で,その高速化が望まれていた 2D 描画ライブラリ Skia を,OSCAR 自動並列化コンパイラにより,プロファイラ情報に基づいた自動並列化を行う手法を開発したのでその方法を説明する.OSCAR コンパイラは Parallelizable C により記述された逐次プログラムから様々な粒度で並列化解析を行い,自動的に並列化 C ソースを出力する.しかし,Skia は Android 内のライブラリであり,利用する描画命令ルーチンにより制御フローが大きく変化するため,最適な並列化解析を行うことが困難である.そこで,本論文では Skia のような制御フローがコンパイル時に特定できないプログラムに対し,Oprofile を用いて取得したプロファイル結果を OSCAR コンパイラにフィードバックすることで,並列化対象を特定の領域に絞り,高い性能向上が得られる手法を提案する.なお,並列化対象領域が Parallelizable C コードでない場合でも,解析結果により実行コストが大きい部分から Parallelizable C に変更し,チューニングを施すことで並列化が可能となる.本手法を,描画ベンチマークとして広く使われている 0xbench を NVIDIA Tegra3 チップ (ARM Cortex-A9 4 コア) を搭載した Nexus7 上で評価を行った.並列化 Skia の実行においては,並列化部分の速度向上を正確に評価するため, Android を core0 に割り当て,残り 3 コアを Skia が利用できる形とした.評価の結果として,DrawRect で従来の 1.91 倍である 43.57 [fps],DrawArc で 1.32 倍の 50.98[fps],DrawCircle2 では 1.5 倍の 50.77[fps] といずれも性能向上結果が得られた.
著者
後藤 隆志 武藤 康平 平野 智大 見神 広紀 高橋 宇一郎 井上 栄 木村 啓二 笠原 博徳
雑誌
研究報告組込みシステム(EMB)
巻号頁・発行日
vol.2015-EMB-36, no.34, pp.1-6, 2015-02-27

本稿では,マルチコアを搭載したスマートフォン端末において,コンパイラにより自動並列化及び低消費電力化された複数のアプリケーションを実行する際に,全体の実行時間の短縮あるいは各アプリケーション毎に設定されたデッドラインを守りつつ電力削減を達成するダイナミックスケジューリング方式について提案する.本スケジューリング手法では,コンパイル時に指定した各アプリケーションの並列実行時の利用コア数に応じた実行時間や消費電力,及びデッドラインを用いて,3種類の方式に基づくスケジューリングを行う.ARM 4 コアの端末上で動画コーデックアプリケーションを対象に評価を行い,FIFO 方式と比べ速度向上率で 18.5%,電力削減率で -28.8%の結果が得られた.
著者
中野 啓史 内藤陽介 鈴木 貴久 小高 剛 石坂 一久 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.80, pp.115-120, 2004-07-31
被引用文献数
2

現在,次世代のマイクロプロセッサアーキテクチャとして,複数のプロセッサコアを1チップ上に集積するチップマルチプロセッサ(CMP)が大きな注目を集めている.これらのCMPアーキテクチャにおいても,従来のマルチプロセッサシステムで大きな課題となっていたキャッシュやローカルメモリ等のプロセッサコア近接メモリの有効利用に関する問題は依然存在する.筆者等はこのメモリウォールの問題に対処し,高い並列性を抽出し効果的な並列処理を実現するために,マルチグレイン並列処理との協調動作により実効性能が高く価格性能比の向上を可能にするOSCAR CMPを提案している.このOSCAR CMPは,集中共有メモリ(CSM)に加え,プロセッサのプライベートデータを格納するローカルデータメモリ(LDM),プロセッサコア間の同期やデータ転送にも使用する2ポートメモリ構成の分散共有メモリ(DSM),プロセッサコアと非同期に動作可能なデータ転送ユニット(DTU)を持つ.本稿では,FORTRAN プログラムをループ・サブルーチン・基本ブロックを粗粒度タスクとする.粗粒度タスク並列処理において,配列の生死解析情報を用いて粗粒度タスクの並び替えを行い,プログラムのデータローカリティを抽出するデータローカライゼーション手法について述べる.データ転送は,コンパイラにより自動生成したDTUによるデータ転送命令を用いてバースト転送を行う.Recently, Chip Multiprocessor (CMP) architecture has attracted much attention as a next-generation microprocessor architecture, and many kinds of CMP have widely developed. However, these CMP architectures still have the problem of effective use of memory system nearby processor cores such as cache and local memory. %This problem has also been one of the most important problems for ordinary %multiprocessors. On the other hand, the authors have proposed OSCAR CMP, which cooperatively works with multigrain parallel processing, to achieve high effective performance and good cost effectiveness. To overcome the problem of effective use of cache and local memory, OSCAR CMP has local data memory (LDM) for processor private data and distributed shared memory (DSM) having two ports for synchronization and data transfer among processor cores, centralized shared memory (CSM) to support dynamic task scheduling, and data transfer unit(DTU) for asynchronous data transfer. The multigrain parallelizing compiler uses such memory architecture of OSCAR CMP with data localization scheme that fully uses compile time information. This paper proposes a coarse grain task static scheduling scheme considering data localization using live variable analysis. Data is transferred in burst mode using automatically generated DTU instructions.
著者
小高 剛 中野 啓史 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.46, no.9, pp.2311-2325, 2005-09-15
被引用文献数
11 6

PC,PDA,携帯電話などで静止画像,動画像,音声などを扱うマルチメディアアプリケーションを利用する機会が近年ますます増えている.このためマルチメディアアプリケーションを効率良く処理できる低コスト,低消費電力かつ高パフォーマンスなプロセッサの必要性が増している.このような要求を満たすプロセッサアーキテクチャの1つとして複数のプロセッサコアを1チップ上に搭載したチップマルチプロセッサアーキテクチャが注目されている.しかしながら,チップマルチプロセッサアーキテクチャで効率の良い処理を行うには,アプリケーションの特性を解析し,並列性を抽出し,生成したタスクをバランス良くプロセッサに配置するなどのチップマルチプロセッサ用最適化が必要となる.また,近年のメモリウォール問題の深刻化により,プログラムの持つデータローカリティの有効利用やデータ転送オーバヘッドの削減などの最適化技術も効果的な並列処理のために必須となっている.本論文では,MPEG2エンコードに対する,チップマルチプロセッサ上でのメモリ利用最適化およびデータ転送最適化手法からなる並列処理手法の提案を行うとともに,OSCARチップマルチプロセッサ上での性能評価を行う.性能評価の結果,データローカリティの利用およびデータ転送オーバヘッド隠蔽手法からなる提案手法を適用したMPEG2エンコードは,動作周波数400MHz時で逐次実行に対し,1プロセッサ利用時1.24倍,2プロセッサ利用時2.46倍,4プロセッサ利用時4.57倍,8プロセッサ利用時7.97倍,動作周波数2.8GHz時で逐次実行に対し,1プロセッサ利用時1.36倍,2プロセッサ利用時2.61倍,4プロセッサ利用時4.46倍,8プロセッサ利用時6.54倍の速度向上率の速度向上率が得られることが確認できた.With the popularization of multimedia applications like image and audio processing on PCs, mobile phones and PDAs, development of low cost, low power consumption and high performance processors for multimedia applications has been expected. To this end, chip multiprocessor architectures that allows us to exploit multi-grain parallelism such as coarse grain level parallelism, loop level parallelism and instruction level parallelism have been extensively researched. However, to realize efficient parallel processing on chip multiprocessor architectures, sophisticated techniques are required for decomposition of a program into adequate grain of tasks, analysis of parallelism and scheduling of the tasks onto processors considering data locality. This paper describes a parallel processing scheme for MPEG2 encoding using data localization which optimizes execution efficiency assigning coarse grain tasks accessing the same array data on the same processor consecutively on a chip multiprocessor and data transfer over apping technique which minimize the data transfer overhead by overlapping task execution and data transfer. Performance of the proposed scheme is also evaluated. As the evaluation result on an OSCAR chip multiprocessor architecture, when the clock frequency is assumed as 400 MHz, the proposed scheme gave us 1.24 times speedup for 1 processor, 2.47 times speedup for 2 processors, 4.57 times speedup for 4 processors and 7.97 times speedup for 8 processors against sequential execution without the proposed scheme respectively. Similarly, when 2.8 GHz, the proposed scheme gave us 1.36 times speedup for 1 processor, 2.61 times speedup for 2 processors, 4.46 times speedup for 4 processors and 6.54 times speedup for 8 processors against sequential execution without the proposed scheme respectively.
著者
間瀬 正啓 馬場 大介 長山 晴美 田野 裕秋 益浦 健 深津幸二 宮本 孝道 白子 準 中野 啓史 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.127, pp.1-6, 2006-11-28
被引用文献数
3

マルチプロセッサ、マルチコアアーキテクチャの普及に伴い、ハイパフォーマンスコンピューティング分野から組み込み分野に至る様々な分野で、その特性を引出し高実効性能・低消費電力を実現する自動並列化コンパイラの重要性が高まっている。本稿ではプログラム全域の並列性およびデータローカリティの有効利用が可能なマルチグレイン並列処理を実現する、OSCARコンパイラのC言語対応について述べる。OSCARコンパイラにおけるC言語対応を迅速に行うために制約付きC言語を定めた。MPEG2エンコード、MP3エンコード、AACエンコードの各メディアアプリケーション、組込み向けベンチマークMiBenchよりsusan(smoothing)、SPEC2000よりartについてC言語対応OSCARコンパイラによる自動並列化の初期性能評価を行い、8プロセッササーバであるIBM p5 550上でIBM XL Cコンパイラversion 8.0の逐次処理と比較してsusan(smoothing)で最大7.49倍、4プロセッサワークステーションであるSun Ultra80上でSun Studio 9 Cコンパイラの逐次処理と比較してsusan(smoothing)で最大3.75倍の速度向上が得られた。Along with the popularization of multiprocessors and multicore architectures, automatic parallelizing compiler, which can realize high effective performance and low power comsumption, becomes more and more important in various areas from high performance computing to embedded computing. OSCAR compiler realizes multigrain automatic parallelization, which can exploit parallelism and data locality from the whole of the program. This paper describes C language support in OSCAR compiler. For rapid support of C language, restricted C language is proposed. In the preliminary performance evaluation of automatic parallelization using following media applications as MPEG2 encode, MP3 encode, and AAC encode, Susan (smoothing) derived from MiBench, and Art from SPEC2000, OSCAR compiler achieved 7.49 times speed up in maximum for susan (smoothing) against sequential execution on IBM p5 550 server having 8 processors, and 3.75 times speed up in maximum for susan (smoothing) too against sequential execution on Sun Ultra80 workstation having 4 processors.
著者
間瀬 正啓 馬場 大介 長山 晴美 村田 雄太 木村 啓二 笠原 博徳
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. ICD, 集積回路 (ISSN:09135685)
巻号頁・発行日
vol.108, no.28, pp.69-74, 2008-05-06

本稿では,自動並列化コンパイラにより並列性抽出が可能なC言語におけるポインタ利用方法の制約について述べる.実際にこの制約を満たすようにプログラムを作成し,flow-sensitive, context-sensitiveなポインタ解析を用いた自動並列化を適用したところ,8コアSMPサーバにおいて,逐次実行と比較してSPEC2000 artで3.80倍,SPEC2006 lbmで6.17倍,MediaBench mpeg2encで5.14倍の速度向上が得られた.