著者
松田 俊広 伊野 文彦 萩原 兼一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.5, pp.852-861, 2011-05-01

本論文では,実時間の画像ノイズ除去を目的として,GPU(GraphicsProcessing Unit)に基づく高速な全変動最小化手法を提案する.既存手法と異なり,提案手法はカーネルを二つに分割する.この分割はGPU内の同期を増加させるが,メモリアクセスパターンを簡素化し,メモリアクセスに起因する分岐を削減できる.更に,オフチップメモリの実効バンド幅を最大化し,その読み書き量を最小化するために,スレッドブロックの大きさや形状を適切に定める.実験の結果,提案手法は単一カーネルに基づく既存手法よりも30%ほど高速であった.また,スレッドブロックの形状に応じて,性能が4%ほど向上した.1024 × 1024画素からなる時系列臨床画像に対し,秒間46フレームの実時間ノイズ除去及び可視化を実現できた.
著者
佐々木 智充 伊野 文彦 藤本 典幸 萩原 兼一
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会技術報告 (ISSN:13426893)
巻号頁・発行日
vol.26, pp.7-12, 2002
参考文献数
12
被引用文献数
4

医療分野においてガンの早期発見などを目的として,ボリュームレンダリング(VミR)が利用されている.本研究では高解像度のボリュームデータ(VD)に対して実時間VRを実現するために,分散メモリ型並列計算機上で動作する並列VR手法を提案する.提案手法は,Segmented Ray-Casting法を基に(I1)画像合成における通信量の削減および(I2)負荷分散を実現する.(I1)では通信量を削減できるプロセッサの組に着目し,(I2)では医者の視点が連続的に移動する点に着目する.128CPU構成のPCクラスタを用いた実験の結果,提案手法は従来手法と比較して約2.7倍高速であり,解像度が1024^3のVDに対して秒間1.5回のVRを実現できた.
著者
坪内 佑樹 置田 真生 伊野 文彦 山川 聡 柏木 岳彦 萩原 兼一
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-133, no.31, pp.1-7, 2012-03-19

本稿では,重複排除ストレージのための SHA(Secure Hash Algorithm)-1 計算の高速化を目的として,SSE(Streaming SIMD Extensions) 命令に基づくスループット向上手法を提案する.提案手法は,異なる入力ファイルに対する処理が独立であることに着目し,SSE 命令によるベクトル処理および OpenMP によるマルチスレッド処理を併用する.実験では,単一ファイルを並列処理する既存手法と比較して 1.5 倍の速度向上を得ている.このときの実行効率は 93% に達し,計測したスループット 80 Gbps は PCI Express の実効帯域幅を超えている.したがって,重複排除ストレージにおける性能ボトルネックを除去できていると考える.
著者
伊藤信悟 伊野 文彦 萩原 兼一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.13, pp.235-246, 2007-08-15
被引用文献数
2

GPGPU (General-Purpose Computation on Graphics Processing Units) とは、GPU をグラフィクス処理の枠を越えて汎用問題に適用する試みのことである。本稿では、典型的な GPGPU 実装を対象として、GPU による高速化の見込みを予測するための性能モデルを提案する。提案モデルは、GPGPU 実装の多くがメモリ集中型の問題を対象として規則的にデータを参照する点に着目し、実装全体の性能を主記憶、ビデオメモリおよび GPU 内演算器間の各データパスの転送性能で表す。転送性能の各々は、GPGPU アプリケーションとは独立に計測できるバンド幅および遅延時間のみの簡単な組で表す。提案モデルを画像フィルタおよび LU 分解に適用し、3 世代にわたる GPU 上で評価した結果、誤差は最悪で 20%であった。GPU 内キャッシュの効果がさほど大きくない場合、誤差は 10%以内であることから、提案モデルは典型的な実装に対して GPU による高速化の見込みを見積もる際に有用であると考える。GPGPU stands for general-purpose computation on graphics processing units (GPUs), aiming at applying the GPU to general problems beyond graphics problems. This paper presents a performance model for typical GPGPU implementations, which is capable of predicting the possibility of the acceleration achievable by the GPU. Our model focuses on the fact that most of GPGPU implementations deal with memory-intensive problems and have regular access to data. Based on this fact, we represent the entire performance as the transfer performance of data paths connecting main memory, video memory, and processors inside the GPU. Each of the transfer performance here is simply represented by a combination of bandwidth and latency, which are independent of GPGPU applications. We applied the model to an image filter and LU decomposition to estimate their performance on three generations of GPUs. We found that the model has a 20% error at the worst case. We think that the model is useful for estimating the possibility of typical GPU-accelerated implementations, because the observed errors are less than 10% if GPU cache does not have significant effects on performance.
著者
小谷 裕基 伊野 文彦 萩原 兼一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.106, pp.37-42, 2006-10-06

本稿では,GPUグリッドにおける遊休資源の定義を示し,資源選択手法を提案する.ここでGPUグリッドとは,GPUを装備するPCを計算資源とするデスクトップグリッドを指し,GPUを用いる大規模な汎用計算処理の実現を目的とする.定義は次の2つの観点に基づいて実験的に定める.(1)資源所有者への外乱を最小化すること,および(2)グリッドユーザへ提供する演算性能を最大化すること.提案手法は低オーバヘッドで遊休GPUを検出することを目的として,スクリーンセーバを基とし,資源のVRAM便用量およびCPU使用率を調べる.また,ベンチマークおよびマッチメイキングを組み合わせることで資源選択を実現する.実験の結果,遊休資源の定義が妥当であることを示せた.また,高々262ミリ秒の低オーバヘッドで遊休資源を検出できた.This paper presents a resource selection method and shows a definition of idle resources for the GPU Grid. The GPU grid here consists of desktop computers at home and the office, utilizing idle GPUs and CPUs as computational engines for GPGPU applications. We experimentally define the idle state that minimizes interference to resource owners and maximizes application performance provided to grid users. Our method is based on a screensaver-based approach with low overhead sensors. The sensors detect idle GPUs by checking video random access memory (VRAM) usage and CPU usage on each computer. Detected resources are then selected according to a matchmaking framework and benchmark results. The experimental results show that the definition is reasonable. We also find that our method achieves a low overhead of at most 262 ms, minimizing interference to resource owners.
著者
奥山 倫弘 伊野 文彦 萩原 兼一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2008, no.19, pp.145-150, 2008-03-05
参考文献数
6

本論文では全点対最短経路(APSP:All-Pairs Shortest Path)問題をGPU(Graphics Processing Unit)を用いて高速化した結果を述べる.提案手法は,GPUで動作するプログラムをGPU向けの開発環境CUDA(Compute Unified Device Architecture)を用いて記述する.アルゴリズムには単一始点最短経路を繰り返し求める手法(SSSP反復法)を用いる.問題全体での逐次処理を減らしてより高い速度向上を得るために,1っのSSSP問題を1つのタスクとし,それらのタスクを並列処理する.さらに,共有メモリを用いてタスク間でデータを共有し,グローバルメモリの参照を削減する.結果,既存手法よりも3.5〜18倍高速であった.また,SSSP反復法の性能がグラフの特性に依存して変動することを示す.