著者
土肥 慶亮 頼田 祐二 柴田 裕一郎 小栗 清
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. RECONF, リコンフィギャラブルシステム (ISSN:09135685)
巻号頁・発行日
vol.111, no.31, pp.7-12, 2011-05-05

本稿では,拡張現実(AR)技術の一種であるPTAMで用いられているFAST Corner Detectionの,ストリーム処理を用いたFPGA上での実装を示す.機械学習付きFAST Corner Detectionをコンパクトなハードウェアで実装する上での問題の一つとして,膨大な数のコーナーパターンとのマッチング処理が上げられる.我々は,コーナーパターンの判別式の分割と,回転や反転などの対称性を利用したコーナーパターンの圧縮手法を提案する.提案手法により,組み合わせ回路としてコーナーパターンのマッチング処理が実現できる.FPGA上に実装した機械学習付きFAST Corner Detectionは,リアルタイム処理を実現し,その際のスライス利用率はVirtex-5 FPGAにおいて7〜9%であった.
著者
志田 さや香 柴田 裕一郎 小栗 清
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムLSI設計技術(SLDM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.2, pp.25-30, 2008-01-16

リコンフイギヤラプルマシンでは,CPUとFPGA間のデータ転送がボトルネックになることが多く,転送時間の短縮が求められている.このためSRC-6のDMA転送は複数のオンボードメモリにインタリーブしながらストリーミング処理することが可能となっている.しかし,FPGAの資源制約が大きなアプリケーションでは,インタリーブの前処理としてCPU上でのデータ並べ換えを行う必要がある.本稿では,そのオーバーヘッドを評価し,トレードオフポイントを明らかにした.その結果,1データ列あたり150KB以下の演算を扱う場合,CPU上で並べ換えをした後インタリーブしながらストリーミング処理を行うことで速度向上が実現できることを示した.DMA transfer between a CPU and an FPGA often becomes a bottleneck of current reconfigurable machines. To mitigate this problem, the DMA transfer of SRC-6 supports streaming processing with a on-board memory interleave. However, as a preprocessing of the interleave, the CPU must reorder the data for applications with severe FPGA resource constraints. This paper empirically evaluates this overhead to reveal the trade-off point. The results show that the speedup is achieved by interleaved streaming DMA when FPGAs treat 150 KB or lower of data per stream.
著者
吉見 真聡 長名 保範 岩岡 洋 西川 由理 小嶋 利紀 柴田 裕一郎 岩永 直樹 舟橋 啓 広井 賀子 北野 宏明 天野 英晴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.3, pp.45-58, 2007-02-15
被引用文献数
4

確率モデル生化学シミュレーションアルゴリズム(SSA)は,定義した生化学システムの確率的挙動を厳密に計算できるアルゴリズムとして知られている.しかし,SSA の実行には膨大な計算時間が必要であり,高速な実行環境が求められている.本論文では,高速実行の一手法として,Xilinx 社のFPGA(XC2VP70-5)を用いて,SSA(First Reaction Method)を実行する回路を実装,評価した結果について述べる.高速化は,パイプライン化した演算ユニットを使い,複数スレッドのシミュレーションを同時に実行することで実現する.シミュレータ回路は,中間データをBlockRAM に保持し対象の生化学システムごとの回路再構成を要しない,実用的な構造になっている.ベンチマーク的に定義できる生化学システムTIS,D4S で評価した結果,Xeon 2.80 GHz による実行と比較して,TIS では約83 倍,D4S では約95 倍のスループット向上が可能であることを確認した.This paper discusses an FPGA implementation and evaluation of a Stochastic Simulation Algorithm (SSA) called the First Reaction Method. SSAs are widely known as rigorous methods for simulating the stochastic behaviors of various biochemical systems, but also as CPU-hogging applications due to vast repetition of the algorithm. This work accelerates the execution by achieving high throughput with concurrent simulations of highly utilized pipelined arithmetic units. For upgrading practical utility, the design stores intermediate data in a BlockRAM so that reconfiguration is unnecessary for different target biochemical systems. Benchmark results on an FPGA (Xilinx XC2VP70-5) have shown that the circuit provides throughput of approximately 83 times and 95 times compared to software execution on Xeon 2.80 GHz when it was evaluated with biochemical models called TIS and D4S, respectively.