文献一覧: 木村啓 (著者)

1 0 0 0 OA H.264/AVCエンコーダのマルチコアプロセッサにおける階層的並列処理

著者: 見神広紀宮本孝道木村啓二笠原博徳
雑誌: 研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日: vol.2010-ARC-187, no.22, pp.1-6, 2010-01-21

本稿ではビデオコーデックである H.264/AVC エンコーダの高速化手法としてフレームおよびマクロブロックでの階層的な並列処理を提案する.H.264/AVC エンコーダの一実装である x264 上にマクロブロックでの並列処理機能を実装し,64 コアのマルチコアシステム上での処理性能の評価を行った.その結果,2 コア集積のマルチコアである Intel Itanium2 (Montvale) を 32 基搭載した 64 コア構成の ccNUMA サーバである SGI Altix450 において,フレームでの並列処理のみの場合が 6.3 倍であったのに対しフレームおよびマクロブロックの 2 階層で行った場合は 10.6 倍の性能向上が得られた.

2020-07-23 13:08:00
1 はてなブックマーク

http://id.nii.ac.jp/1001/00067377/

1 0 0 0 マルチコアにおける Parallelizable C プログラムの自動並列化

著者: 間瀬正啓木村啓二笠原博徳
出版者: 情報処理学会
雑誌: 情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日: vol.184, pp.O1-O10, 2009-08-04
参考文献数: 27
被引用文献数: 11

本稿ではコンパイラによる自動並列化を可能とするための C 言語の記述方法として Parallelizable C を提案する.Parallelizable C で記述した科学技術計算およびマルチメディア処理の逐次プログラム 6 本に対して OSCAR コンパイラによる自動並列化を適用し,マルチコアシステム上での処理性能の評価を行った.その結果,逐次実行時と比較して,2 コア集積のマルチコアである IBM Power5+ を 4 基搭載した 8 コア構成のサーバである IBM p5 550Q において平均 5.54 倍,4 コア集積のマルチコアである Intel Core i7 920 プロセッサを搭載した PC において平均 2.43 倍,SH-4A コアベースの情報家電用マルチコア RP2 の 4 コアを使用した SMP 実行モードにおいて平均 2.78 倍の性能向上が得られた.This paper proposes Parallelizable C, a guideline for writing C programs which enables automatic parallelization by a compiler. 6 sequential programs written in Parallelizable C from numerical and multimedia application domains are automatically parallelized by OSCAR compiler. The parallel processing performance for these applications are evaluated on multicore systems. The evaluation results show that the compiler automatic parallelization achieves average 5.54 times speedup on a 8 cores server IBM p5 550Q with 4 dual-core Power5+ processors, average 2.43 times speedup on a 4 cores multicore processor PC with Intel Core i7 920, and average 2.78 times speedup on Renesas/Hitachi/Waseda RP2 with SH-4A cores in SMP execution mode using 4 cores compared with sequential execution, respectively.

2020-04-28 14:57:06
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110007997568

1 0 0 0 OA 微小突起による機械的皮膚刺激の筋疲労の予防と回復

著者: 有馬義貴木村啓作日野こころ新原寿志
出版者: 常葉大学浜松キャンパス
雑誌: 常葉大学健康プロデュース学部雑誌 = Journal of health promotional sciences (ISSN:21882819)
巻号頁・発行日: vol.12, no.1, pp.3-8, 2018-02

2019-08-02 17:40:32
1 + 0 Twitter

1 0 0 0 OA An ER Trial in an EFL Repeaters’ Course at University: Aiming to Enhance English Study by Reducing Negativity Toward English

著者: 木村啓子 Keiko KIMURA 尚美学園大学総合政策学部
出版者: 尚美学園大学総合政策学部
雑誌: 尚美学園大学総合政策研究紀要 = Bulletin of policy and management, Shobi University (ISSN:13463802)
巻号頁・発行日: vol.29, pp.77-85, 2017-03-31

大学の英語嫌いの学習者の多い英語再履修クラスで、英語への抵抗感を軽減させ、かつ学習効果を上げる試みとして、絵本からの英語多読と多読本の音読等を取り入れて英語のインプット量を増大させることを目標とした授業を1 セメスター間実施した。学期開始時と終了時に行った英語テストの結果をノンパラメトリックテストにかけた結果、9 名という少人数であったこともあり、統計的有意差は確認できなかったものの、英語力向上の効果量は大であることが判明した。また学期終了時に実施したアンケート調査の結果、英語嫌いの度合いが改善されたことが分かった。

2019-02-08 21:36:41
1 + 0 Twitter

http://id.nii.ac.jp/1506/00000578/

1 0 0 0 OA チタン

著者: 木村啓造
出版者: 一般社団法人軽金属学会
雑誌: 軽金属 (ISSN:04515994)
巻号頁・発行日: vol.18, no.6, pp.347-359, 1968-06-30 (Released:2008-10-30)
参考文献数: 50
被引用文献数: 2 6

2019-01-20 13:49:00
1 知恵袋

1 0 0 0 キャッシュ最適化を考慮したマルチプロセッサシステム上での粗粒度タスクスタティックスケジューリング手法

著者: 中野啓史石坂一久小幡元樹木村啓二笠原博徳
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日: vol.2001, no.76, pp.67-72, 2001-07-25
参考文献数: 13
被引用文献数: 3

近年のプロセッサの動作速度とメモリアクセスの速度差の拡大により,データローカリティを利用したキャッシュ最適化がますます重要となっている。また,マルチプロセッサシステム上での並列処理においては,従来のループ並列化のみの並列処理は限界を向かえつつある。そのため更なる性能向上を得るには粗粒度タスク並列処理の併用等マルチグレイン並列化が重要となっている。本稿では,Fortranプログラムをループ・サブルーチン・基本ブロックの3種類の粗粒度タスクに分割し,粗粒度タスク間の制御依存・データ依存を解析して並列性を抽出する粗粒度タスク並列処理において,粗粒度タスク間のデータ共有量を考慮してキャッシュ最適化を行う粗粒度タスクスタティックスケジューリング手法について述べる。本手法をOSCAR Fortranマルチグレイン並列化コンパイラに実装してSunUltra80(4プロセッサSMP)上で評価を行った結果,SPEC 95fpのswim,tomcatvにおいて,本手法により,Sun Forte HPC 6 update 1 の自動並列化に対してそれぞれ4.56倍,2.37倍の速度向上が得られ,本手法の有効性が確かめられた。Effective use of cache memory based on data locality is getting more important with increasing gap between the processor speed and memory access speed. As to parallel processing on multiprocessor systems, it seems to be difficult to achieve large performance improvement only with the conventional loop iteration level parallelism. This paper proposes a coarse grain task static scheduling scheme considering cache optimization. The proposed scheme is based on the macro data flow parallel processing that uses coarse grain task parallelism among tasks such as loop blocks, subroutines and basic blocks. It is implemented on OSCAR Fortran multigrain parallelizing compiler and evaluated on Sun Ultra80 four-processor SMP machine, using swim and tomcatv from the SPEC fp 95 benchmark suite. As the results, the proposed scheme gives us 4.56 times speedup for swim and 2.37 times for tomcatv respectively against the Sun Forte HPC 6 loop parallelizing compiler on 4 processors.

2018-07-15 15:00:23
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002774931

1 0 0 0 ヘテロジニアスマルチコア向けソフトウェア開発フレームワークおよびAPI

著者: 林明宏和田康孝渡辺岳志関口威間瀬正啓白子準木村啓二笠原博徳
出版者: 情報処理学会
雑誌: 情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日: vol.5, no.1, pp.68-79, 2012-01-27

汎用CPUコアに加え特定処理を高効率で実行可能なアクセラレータを搭載したヘテロジニアスマルチコアが広く普及している.しかしながら,ヘテロジニアスマルチコアでは様々な計算資源へのタスクスケジューリングやデータ転送コード挿入等多くをプログラマが記述する必要があるためプログラミングが困難である.そこで本論文では,逐次プログラムを入力とし自動並列化コンパイラを用いることで自動的に汎用コアとアクセラレータコアにタスクを配分し,高い性能および低消費電力を実現可能なソフトウェア開発フレームワークを提案する.本手法はアクセラレータコンパイラやアクセラレータライブラリ等既存のアクセラレータ開発環境を有効に利用可能である.本フレームワークを情報家電用ヘテロジニアスマルチコアプロセッサRP-Xをターゲットとして,アクセラレータライブラリを使用し,AACエンコーダおよびOptical Flow計算の自動並列化性能および消費電力を評価した.その結果,8つの汎用CPUコアおよび4つのアクセラレータコアを使用した場合,逐次実行時と比較してOptical Flow計算で最大32倍,AACエンコーダで最大80%の電力を削減可能であることを確認し,ヘテロジニアスマルチコアを対象とした汎用的なコンパイラフレームワークを実現した.There has been a growing interest in heterogeneous multicores because heterogeneous multicores achieve high performance keeping power consumption low. However, heterogeneous multicores force programmers very difficult programming. In order to overcome such a situation, this paper proposes a compilation framework which realizes high performance and low power. This paper also evaluates processing performance and the power reduction by the proposed framework on RP-X processor. The framework attains speedups up to 32x for an optical flow program with eight general purpose processor cores and four DRP (Dynamically Reconfigurable Processor) accelerator cores against sequential execution by a single processor core and 80% of power reduction for the real-time AAC encoding when we utilize an existing accelerator library.

2018-04-10 03:30:14
1 + 0 Twitter

https://ci.nii.ac.jp/naid/40019260897

1 0 0 0 OA 精子選別機能集積型受精卵作出デバイスの開発

著者: 高橋翼中村寛子木村啓志
出版者: 一般社団法人日本機械学会
雑誌: 日本機械学会論文集 (ISSN:21879761)
巻号頁・発行日: vol.83, no.850, pp.16-00560-16-00560, 2017 (Released:2017-06-25)
参考文献数: 16

Nowadays, in vitro fertilization (IVF) of mammalian embryos is an essential technique in the reproductive technology and other related life science fields. However, the fertility rate by this technique is still less than 25%. Therefore, a novel in vitro fertilization method which obtains high fertility rate has been highly desired to the reproductive technology. In this study, we proposed and developed an in vitro embryo production device which allows three steps of sperm selection, fertilization and culture on a microdevice. To realize this concept, we integrated the sperm sorting function combining with swim-up and swim-down methods onto the device. To evaluate the device functions, sperm sorting experiment, in vitro fertilization experiment, and embryo culture experiment have been carried out. As results, we concluded that the device has ability to produce high quality embryos by integrating the sperm sorting function. This concept will open and enhance the management of in vitro fertilized embryos for assisted reproductive technology, livestock breeding, and fundamental stage research by further development.

2017-07-25 15:13:13
1 + 0 Twitter

1 0 0 0 チタン合金の組織と性質

著者: 木村啓造
出版者: 社団法人日本鉄鋼協会
雑誌: 鐵と鋼 : 日本鐡鋼協會々誌 (ISSN:00211575)
巻号頁・発行日: vol.72, no.1, pp.113-122, 1986-01-01
被引用文献数: 1

2017-07-08 13:02:14
1 + 1 Wikipedia

https://ci.nii.ac.jp/naid/110001491121

1 0 0 0 プロファイル情報を用いたAndroid 2D描画ライブラリSKIAのOSCARコンパイラによる並列化

著者: 後藤隆志武藤康平山本英雄平野智大見神広紀木村啓二笠原博徳
雑誌: 研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日: vol.2013, no.12, pp.1-7, 2013-12-09

本論文では,スマートフォンやタブレット等で広く用いられる Android において,従来マルチコアプロセッサ上での並列化が困難で,その高速化が望まれていた 2D 描画ライブラリ Skia を,OSCAR 自動並列化コンパイラにより,プロファイラ情報に基づいた自動並列化を行う手法を開発したのでその方法を説明する.OSCAR コンパイラは Parallelizable C により記述された逐次プログラムから様々な粒度で並列化解析を行い,自動的に並列化 C ソースを出力する.しかし,Skia は Android 内のライブラリであり,利用する描画命令ルーチンにより制御フローが大きく変化するため,最適な並列化解析を行うことが困難である.そこで,本論文では Skia のような制御フローがコンパイル時に特定できないプログラムに対し,Oprofile を用いて取得したプロファイル結果を OSCAR コンパイラにフィードバックすることで,並列化対象を特定の領域に絞り,高い性能向上が得られる手法を提案する.なお,並列化対象領域が Parallelizable C コードでない場合でも,解析結果により実行コストが大きい部分から Parallelizable C に変更し,チューニングを施すことで並列化が可能となる.本手法を,描画ベンチマークとして広く使われている 0xbench を NVIDIA Tegra3 チップ (ARM Cortex-A9 4 コア) を搭載した Nexus7 上で評価を行った.並列化 Skia の実行においては,並列化部分の速度向上を正確に評価するため, Android を core0 に割り当て,残り 3 コアを Skia が利用できる形とした.評価の結果として,DrawRect で従来の 1.91 倍である 43.57 [fps],DrawArc で 1.32 倍の 50.98[fps],DrawCircle2 では 1.5 倍の 50.77[fps] といずれも性能向上結果が得られた.

2016-10-21 06:00:13
1 + 0 Twitter

https://ci.nii.ac.jp/naid/170000079423

1 0 0 0 IR 英語圏滞在が英語学習ストラテジーに及ぼす影響--短期海外研修は英語学習ストラテジーを向上させるか

著者: 木村啓子
出版者: 尚美学園大学総合政策学部
雑誌: 尚美学園大学総合政策研究紀要 (ISSN:13463802)
巻号頁・発行日: no.13, pp.1-12, 2007-03

外国語を学習するにあたり、さまざまな学習ストラテジー(方略)を使用することが語学上達に効果的であると言われているが、本研究では2年度に渡る本学のニュージーランド短期語学研修参加者19名を実験群、同研修に参加しなかった本学学生24名を統制群とし、約3週間の英語圏滞在により、参加学生の英語学習ストラテジーの使用度に変化が認められるか、また変化があるとすると、その変化は学生に定着したものなのか、加えて、本学の被験学生はどのようなストラテジーを多く使う傾向にあるのかを言語学習ストラテジー調査(SILL)を用い、統計分析を施して調査した。結果は、研修前には学習ストラテジー使用度において統計的に同質であった両群が、研修後には実験群が統制群に比べ、ストラテジー使用度が有意に高くなっており、3週間の英語圏滞在により学生のストラテジー使用が活発になることがわかった。しかもその変化はある程度定着したものであるという結果が出た。また、本学の被験学生は記憶ストラテジーや情意ストラテジーよりも、補償ストラテジーを有意に多く使う傾向にあることが検証された。

2015-06-14 08:12:06
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110006661185

1 0 0 0 自動並列化・低消費電力化された複数アプリケーションに対するマルチコア用ダイナミックスケジューリング手法

著者: 後藤隆志武藤康平平野智大見神広紀高橋宇一郎井上栄木村啓二笠原博徳
雑誌: 研究報告組込みシステム(EMB)
巻号頁・発行日: vol.2015-EMB-36, no.34, pp.1-6, 2015-02-27

本稿では,マルチコアを搭載したスマートフォン端末において,コンパイラにより自動並列化及び低消費電力化された複数のアプリケーションを実行する際に,全体の実行時間の短縮あるいは各アプリケーション毎に設定されたデッドラインを守りつつ電力削減を達成するダイナミックスケジューリング方式について提案する.本スケジューリング手法では,コンパイル時に指定した各アプリケーションの並列実行時の利用コア数に応じた実行時間や消費電力,及びデッドラインを用いて,3種類の方式に基づくスケジューリングを行う.ARM 4 コアの端末上で動画コーデックアプリケーションを対象に評価を行い,FIFO 方式と比べ速度向上率で 18.5%,電力削減率で -28.8%の結果が得られた.

2015-02-27 11:41:59
1 + 0 Twitter

http://id.nii.ac.jp/1001/00113709/

1 0 0 0 OSCARチップマルチプロセッサ上でのデータ転送ユニットを用いたデータローカライゼーション

著者: 中野啓史内藤陽介鈴木貴久小高剛石坂一久木村啓二笠原博徳
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日: vol.2004, no.80, pp.115-120, 2004-07-31
被引用文献数: 2

現在,次世代のマイクロプロセッサアーキテクチャとして,複数のプロセッサコアを1チップ上に集積するチップマルチプロセッサ(CMP)が大きな注目を集めている.これらのCMPアーキテクチャにおいても,従来のマルチプロセッサシステムで大きな課題となっていたキャッシュやローカルメモリ等のプロセッサコア近接メモリの有効利用に関する問題は依然存在する.筆者等はこのメモリウォールの問題に対処し,高い並列性を抽出し効果的な並列処理を実現するために,マルチグレイン並列処理との協調動作により実効性能が高く価格性能比の向上を可能にするOSCAR CMPを提案している.このOSCAR CMPは,集中共有メモリ(CSM)に加え,プロセッサのプライベートデータを格納するローカルデータメモリ(LDM),プロセッサコア間の同期やデータ転送にも使用する2ポートメモリ構成の分散共有メモリ(DSM),プロセッサコアと非同期に動作可能なデータ転送ユニット(DTU)を持つ.本稿では,FORTRAN プログラムをループ・サブルーチン・基本ブロックを粗粒度タスクとする.粗粒度タスク並列処理において,配列の生死解析情報を用いて粗粒度タスクの並び替えを行い,プログラムのデータローカリティを抽出するデータローカライゼーション手法について述べる.データ転送は,コンパイラにより自動生成したDTUによるデータ転送命令を用いてバースト転送を行う.Recently, Chip Multiprocessor (CMP) architecture has attracted much attention as a next-generation microprocessor architecture, and many kinds of CMP have widely developed. However, these CMP architectures still have the problem of effective use of memory system nearby processor cores such as cache and local memory. %This problem has also been one of the most important problems for ordinary %multiprocessors. On the other hand, the authors have proposed OSCAR CMP, which cooperatively works with multigrain parallel processing, to achieve high effective performance and good cost effectiveness. To overcome the problem of effective use of cache and local memory, OSCAR CMP has local data memory (LDM) for processor private data and distributed shared memory (DSM) having two ports for synchronization and data transfer among processor cores, centralized shared memory (CSM) to support dynamic task scheduling, and data transfer unit(DTU) for asynchronous data transfer. The multigrain parallelizing compiler uses such memory architecture of OSCAR CMP with data localization scheme that fully uses compile time information. This paper proposes a coarse grain task static scheduling scheme considering data localization using live variable analysis. Data is transferred in burst mode using automatically generated DTU instructions.

2015-02-05 00:45:07
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002774658

1 0 0 0 チップマルチプロセッサ上でのMPEG2エンコードの並列処理

著者: 小高剛中野啓史木村啓二笠原博徳
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.46, no.9, pp.2311-2325, 2005-09-15
被引用文献数: 11 6

PC,PDA,携帯電話などで静止画像,動画像,音声などを扱うマルチメディアアプリケーションを利用する機会が近年ますます増えている.このためマルチメディアアプリケーションを効率良く処理できる低コスト,低消費電力かつ高パフォーマンスなプロセッサの必要性が増している.このような要求を満たすプロセッサアーキテクチャの1つとして複数のプロセッサコアを1チップ上に搭載したチップマルチプロセッサアーキテクチャが注目されている.しかしながら,チップマルチプロセッサアーキテクチャで効率の良い処理を行うには,アプリケーションの特性を解析し,並列性を抽出し,生成したタスクをバランス良くプロセッサに配置するなどのチップマルチプロセッサ用最適化が必要となる.また,近年のメモリウォール問題の深刻化により,プログラムの持つデータローカリティの有効利用やデータ転送オーバヘッドの削減などの最適化技術も効果的な並列処理のために必須となっている.本論文では,MPEG2エンコードに対する,チップマルチプロセッサ上でのメモリ利用最適化およびデータ転送最適化手法からなる並列処理手法の提案を行うとともに,OSCARチップマルチプロセッサ上での性能評価を行う.性能評価の結果,データローカリティの利用およびデータ転送オーバヘッド隠蔽手法からなる提案手法を適用したMPEG2エンコードは,動作周波数400MHz時で逐次実行に対し,1プロセッサ利用時1.24倍,2プロセッサ利用時2.46倍,4プロセッサ利用時4.57倍,8プロセッサ利用時7.97倍,動作周波数2.8GHz時で逐次実行に対し,1プロセッサ利用時1.36倍,2プロセッサ利用時2.61倍,4プロセッサ利用時4.46倍,8プロセッサ利用時6.54倍の速度向上率の速度向上率が得られることが確認できた.With the popularization of multimedia applications like image and audio processing on PCs, mobile phones and PDAs, development of low cost, low power consumption and high performance processors for multimedia applications has been expected. To this end, chip multiprocessor architectures that allows us to exploit multi-grain parallelism such as coarse grain level parallelism, loop level parallelism and instruction level parallelism have been extensively researched. However, to realize efficient parallel processing on chip multiprocessor architectures, sophisticated techniques are required for decomposition of a program into adequate grain of tasks, analysis of parallelism and scheduling of the tasks onto processors considering data locality. This paper describes a parallel processing scheme for MPEG2 encoding using data localization which optimizes execution efficiency assigning coarse grain tasks accessing the same array data on the same processor consecutively on a chip multiprocessor and data transfer over apping technique which minimize the data transfer overhead by overlapping task execution and data transfer. Performance of the proposed scheme is also evaluated. As the evaluation result on an OSCAR chip multiprocessor architecture, when the clock frequency is assumed as 400 MHz, the proposed scheme gave us 1.24 times speedup for 1 processor, 2.47 times speedup for 2 processors, 4.57 times speedup for 4 processors and 7.97 times speedup for 8 processors against sequential execution without the proposed scheme respectively. Similarly, when 2.8 GHz, the proposed scheme gave us 1.36 times speedup for 1 processor, 2.61 times speedup for 2 processors, 4.46 times speedup for 4 processors and 6.54 times speedup for 8 processors against sequential execution without the proposed scheme respectively.

2014-07-22 19:04:09
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002769871

1 0 0 0 OA 大学生の海外短期研修の効果への一考察 : リスニングとライティングに焦点を当てて

著者: 木村啓子
出版者: 尚美学園大学
雑誌: 尚美学園大学総合政策研究紀要 (ISSN:13463802)
巻号頁・発行日: vol.21, pp.17-30, 2011-12-01

本研究の目的は、3週間の海外短期語学研修の効果を検証することである。研修前後に4部門(文法、作文、読解、リスニング)計75問の英語テストと15分のエッセイライティングを参加者14名に課した。木村(2009)ではリスニングに研修前後の有意差が確認できた為、今回は研修途中にも2回テストを行い、どの時点でリスニング力に伸びが認められるかを測定する試みも行った。ライティングの評価には、多くの研究者が使用しているT-unit、Error-free T-unitの他に、習熟度の低い学習者のライティング力評価には有用である可能性があると考え、新たな試みとして独自に、"Global-error-free T-unit" を導入してみた。英語テストの結果は、学生の作文、リスニング、総合点において有意差が認められたが、研修途中でのリスニングの伸びは確認できなかった。ライティングに関しては、accuracy(正確さ) には向上が見られなかったが、fluency(流暢さ) には大きな向上が認められた。

2013-05-27 17:49:10
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110009500272

1 0 0 0 OSCARコンパイラにおける制約付きCプログラムの自動並列化

著者: 間瀬正啓馬場大介長山晴美田野裕秋益浦健深津幸二宮本孝道白子準中野啓史木村啓二笠原博徳
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日: vol.2006, no.127, pp.1-6, 2006-11-28
被引用文献数: 3

マルチプロセッサ、マルチコアアーキテクチャの普及に伴い、ハイパフォーマンスコンピューティング分野から組み込み分野に至る様々な分野で、その特性を引出し高実効性能・低消費電力を実現する自動並列化コンパイラの重要性が高まっている。本稿ではプログラム全域の並列性およびデータローカリティの有効利用が可能なマルチグレイン並列処理を実現する、OSCARコンパイラのC言語対応について述べる。OSCARコンパイラにおけるC言語対応を迅速に行うために制約付きC言語を定めた。MPEG2エンコード、MP3エンコード、AACエンコードの各メディアアプリケーション、組込み向けベンチマークMiBenchよりsusan(smoothing)、SPEC2000よりartについてC言語対応OSCARコンパイラによる自動並列化の初期性能評価を行い、8プロセッササーバであるIBM p5 550上でIBM XL Cコンパイラversion 8.0の逐次処理と比較してsusan(smoothing)で最大7.49倍、4プロセッサワークステーションであるSun Ultra80上でSun Studio 9 Cコンパイラの逐次処理と比較してsusan(smoothing)で最大3.75倍の速度向上が得られた。Along with the popularization of multiprocessors and multicore architectures, automatic parallelizing compiler, which can realize high effective performance and low power comsumption, becomes more and more important in various areas from high performance computing to embedded computing. OSCAR compiler realizes multigrain automatic parallelization, which can exploit parallelism and data locality from the whole of the program. This paper describes C language support in OSCAR compiler. For rapid support of C language, restricted C language is proposed. In the preliminary performance evaluation of automatic parallelization using following media applications as MPEG2 encode, MP3 encode, and AAC encode, Susan (smoothing) derived from MiBench, and Art from SPEC2000, OSCAR compiler achieved 7.49 times speed up in maximum for susan (smoothing) against sequential execution on IBM p5 550 server having 8 processors, and 3.75 times speed up in maximum for susan (smoothing) too against sequential execution on Sun Ultra80 workstation having 4 processors.

2013-02-06 11:15:06
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110005717695

1 0 0 0 ポインタ解析を用いた制約付きCプログラムの自動並列化(並列処理,集積回路とアーキテクチャの協創〜どう繋ぐ?どう使う?マルチコア〜)

著者: 間瀬正啓馬場大介長山晴美村田雄太木村啓二笠原博徳
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. ICD, 集積回路 (ISSN:09135685)
巻号頁・発行日: vol.108, no.28, pp.69-74, 2008-05-06

本稿では,自動並列化コンパイラにより並列性抽出が可能なC言語におけるポインタ利用方法の制約について述べる.実際にこの制約を満たすようにプログラムを作成し,flow-sensitive, context-sensitiveなポインタ解析を用いた自動並列化を適用したところ,8コアSMPサーバにおいて,逐次実行と比較してSPEC2000 artで3.80倍,SPEC2006 lbmで6.17倍,MediaBench mpeg2encで5.14倍の速度向上が得られた.

2011-02-02 00:30:20
1 + 1 Twitter

https://ci.nii.ac.jp/naid/110006880512

1 0 0 0 マクロタスク最早実行可能条件解析を用いたキャッシュ最適化手法

著者: 稲石大祐木村啓二尾形航岡本雅巳笠原博徳
雑誌: 全国大会講演論文集
巻号頁・発行日: vol.56, pp.303-304, 1998-03-17

2010-08-17 15:00:14
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002892027

1 0 0 0 最早実行可能条件解析を用いたキャッシュ最適化手法

著者: 稲石大祐木村啓二藤本謙作尾形航岡本雅巳笠原博徳
雑誌: 全国大会講演論文集
巻号頁・発行日: vol.58, pp.177-178, 1999-03-09

2010-08-17 14:45:18
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002893319

1 0 0 0 最早実行可能条件解析を用いたキャッシュ利用の最適化

著者: 稲石大祐木村啓二藤本謙作尾形航岡本雅巳笠原博徳
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日: vol.1998, no.70, pp.31-36, 1998-08-05
被引用文献数: 2

従来のコンパイラによる単一プロセッサ用キャッシュ最適化は個々のループを対象としているため、プログラム全体に比べると局所的な最適化が多く、プログラム全域を対象としたキャッシュ最適化は行われていない。そこで本稿では、最早実行可能条件解析を利用した単一プロセッサ上でのFORTRANプログラムのキャッシュ最適化手法を提案する。OSCAR FORTRANマルチグレイン自動並列化コンパイラは、FORTRANプログラムをループ・サブルーチン・基本ブロックの3種のマクロタスク(MT)に分割し、各MTに最早実行可能条件解析を行いマクロタスクグラフ(MTG)を生成する。MTGは制御依存及びデータ依存に基づくMT間の実行順序制約、及びMT間で授受されるデータに関する情報を表現する。本手法ではこのMTGを用いて、先行MTによってアクセスされたデータにアクセスする後続MTが先行MTの直後に実行されるよう大域的なコード移動を行い、キャッシュヒット率を向上させる。本手法は、OSCAR FORTRANマルチグレイン自動並列化コンパイラ中に、最適化された逐次型FORTRANを出力するプリプロセッサ機能として実現されている。CG法プログラムを用いた本キャッシュ最適化手法の性能評価結果を行ったところ167MHz UltraSPARC上で最高62%の速度向上が得られた。Cache optimizations by a compiler for a single processor machine have been mainly applied to a singlenested loop. On the contrary, this paper proposes a cache optimization scheme using earliest executable condition analysis for FORTRAN programs on a single processor system. OSCAR FORTRAN multi-grain automatic parallelizing compiler decomposes a FORTRAN program into three types of macrotasks (MT), such as loops, subroutines and basic blocks, and analyzes the earliest executable condition of each MT to extract coarse grain parallelism among MTs and generates a macrotask graph (MTG). The MTG represents data dependence and extended control dependence among MTs and an information of shared data among MTs. By using this MTG, a compiler realizes global code motion to use cache effectively. The code motion technique moves a MT, which accesses data accessed by a precedent MT on MTG, immediately after the precedent MT to increase a cache hit rate. This optimization is realized using OSCAR multi-grain compiler as a preprocessor to output an optimized sequential FORTRAN code. A performance evaluation shows about 62% speed up compared with original program on 167MHz UltraSPARC.

2010-08-14 16:30:29
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002775529