著者
見神 広紀 宮本 孝道 木村 啓二 笠原 博徳
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2010-ARC-187, no.22, pp.1-6, 2010-01-21

本稿ではビデオコーデックである H.264/AVC エンコーダの高速化手法としてフレームおよびマクロブロックでの階層的な並列処理を提案する.H.264/AVC エンコーダの一実装である x264 上にマクロブロックでの並列処理機能を実装し,64 コアのマルチコアシステム上での処理性能の評価を行った.その結果,2 コア集積のマルチコアである Intel Itanium2 (Montvale) を 32 基搭載した 64 コア構成の ccNUMA サーバである SGI Altix450 において,フレームでの並列処理のみの場合が 6.3 倍であったのに対しフレームおよびマクロブロックの 2 階層で行った場合は 10.6 倍の性能向上が得られた.
著者
後藤隆志 武藤康平 山本英雄 平野智大 見神広紀 木村啓二 笠原博徳
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013, no.12, pp.1-7, 2013-12-09

本論文では,スマートフォンやタブレット等で広く用いられる Android において,従来マルチコアプロセッサ上での並列化が困難で,その高速化が望まれていた 2D 描画ライブラリ Skia を,OSCAR 自動並列化コンパイラにより,プロファイラ情報に基づいた自動並列化を行う手法を開発したのでその方法を説明する.OSCAR コンパイラは Parallelizable C により記述された逐次プログラムから様々な粒度で並列化解析を行い,自動的に並列化 C ソースを出力する.しかし,Skia は Android 内のライブラリであり,利用する描画命令ルーチンにより制御フローが大きく変化するため,最適な並列化解析を行うことが困難である.そこで,本論文では Skia のような制御フローがコンパイル時に特定できないプログラムに対し,Oprofile を用いて取得したプロファイル結果を OSCAR コンパイラにフィードバックすることで,並列化対象を特定の領域に絞り,高い性能向上が得られる手法を提案する.なお,並列化対象領域が Parallelizable C コードでない場合でも,解析結果により実行コストが大きい部分から Parallelizable C に変更し,チューニングを施すことで並列化が可能となる.本手法を,描画ベンチマークとして広く使われている 0xbench を NVIDIA Tegra3 チップ (ARM Cortex-A9 4 コア) を搭載した Nexus7 上で評価を行った.並列化 Skia の実行においては,並列化部分の速度向上を正確に評価するため, Android を core0 に割り当て,残り 3 コアを Skia が利用できる形とした.評価の結果として,DrawRect で従来の 1.91 倍である 43.57 [fps],DrawArc で 1.32 倍の 50.98[fps],DrawCircle2 では 1.5 倍の 50.77[fps] といずれも性能向上結果が得られた.
著者
後藤 隆志 武藤 康平 平野 智大 見神 広紀 高橋 宇一郎 井上 栄 木村 啓二 笠原 博徳
雑誌
研究報告組込みシステム(EMB)
巻号頁・発行日
vol.2015-EMB-36, no.34, pp.1-6, 2015-02-27

本稿では,マルチコアを搭載したスマートフォン端末において,コンパイラにより自動並列化及び低消費電力化された複数のアプリケーションを実行する際に,全体の実行時間の短縮あるいは各アプリケーション毎に設定されたデッドラインを守りつつ電力削減を達成するダイナミックスケジューリング方式について提案する.本スケジューリング手法では,コンパイル時に指定した各アプリケーションの並列実行時の利用コア数に応じた実行時間や消費電力,及びデッドラインを用いて,3種類の方式に基づくスケジューリングを行う.ARM 4 コアの端末上で動画コーデックアプリケーションを対象に評価を行い,FIFO 方式と比べ速度向上率で 18.5%,電力削減率で -28.8%の結果が得られた.