著者
坂本 博和 柴田 裕一郎 小栗 清
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム (ISSN:09135685)
巻号頁・発行日
vol.104, no.476, pp.83-88, 2004-11-25

再構成可能デバイスの普及に伴い,これを容易に利用するための環境が整いつつある.しかし依然としてハードウエア開発技術者の不足が懸念されており,技術者の育成が待たれている.そこで我々はこの技術者教育用の教材として,任天堂から1983年に発売されたファミリーコンピュータを教材として活用することを考え,FPGAへの実装を行った.実装にはXilinxのSpartan-2E300を搭載した市販の評価ボードを使用した.ハードウエア記述言語にはNTTで開発されたSFLを使用し,実装に1ケ月半を要した.実装したファミコンはインターフェースとしてROMカートリッジコネクタ,VGA,サウンド,パッドを搭載し,初期のROMカートリッジにおいて高い互換性を実現している.
著者
正田 備也 濱田 剛 柴田 裕一郎 小栗 清
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IE, 画像工学 (ISSN:09135685)
巻号頁・発行日
vol.108, no.324, pp.1-6, 2008-11-21

本論文では,LDA (latent Dirichlet allocation)言語モデルによる画像からの多重トピック抽出を,GPUを用いて高速化する手法を提案する.LDAはテキスト・マイニングのための確率モデルとしてBleiらにより提案されたが,近年,他のマルチメディア情報へも応用されている.そこで,本論文では,Wangの10,000 test imagesにLDAを適用し,多重トピック抽出をおこなう.LDAのためのパラメータ推定にはcollapsed変分ベイズ法を用いるが,Nvidia CUDA互換GPUを利用して推定を高速化する手法を提案する.
著者
正田備也 濱田 剛 柴田 裕一郎 小栗 清
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.88, pp.67-72, 2008-09-14

本論文では,latent Dirichlet allocation (LDA) のための collapsed 変分ベイズ推定を Graphics Processing Unit (GPU) を用いて高速化する方法を提案する. LDA は,ベイズ理論に基づくマルチトピック文書モデルとして知られているが, Expectation-Maximization (EM) アルゴリズムが利用可能な probabilistic latent semantic indexing (PLSI) など他の文書モデルに比べ,パラメータ推定が複雑で膨大な計算を要する.そこで, LDA のための deterministic なパラメータ推定方法として優れている collapsed 変分ベイズ推定を, GPU を用いて高速化した.実験では約 500 万組の文書と単語のユニークなペアについて, 1 つの Nvidia GeForce 8800 GT 上で collapsed 変分ベイズ推定を実行, 20 Gflops の計算速度を得た.In this paper, we propose a method for executing collapsed variational Bayesian inference for latent Dirichlet allocation (LDA) on Graphics Processing Unit (GPU). While LDA is a well-known multi-topic document model based on Bayesian methods, it requires complicated inference, which leads to enormous computations in comparison with other document models, e.g. probabilistic latent semantic indexing (PLSI), to which Expectation-Maximization (EM) algorithm is applicable. Therefore, we accelerate collapsed variational Bayesian inference, known as an efficient deterministic inference method for LDA, by using GPU. In the experiments, we used about 5 million unique pairs of documents and words. We achieved 20 Gflops on a single Nvidia GeForce 8800 GT.
著者
岩岡 洋 長名 保範 吉見 真聡 小嶋 利紀 西川 由理 舟橋 啓 広井 賀子 柴田 裕一郎 岩永 直樹 北野 宏明 天野 英晴
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. RECONF, リコンフィギャラブルシステム (ISSN:09135685)
巻号頁・発行日
vol.105, no.287, pp.61-66, 2005-09-08
被引用文献数
6

計算機を利用した生化学反応のシミュレーションが行なわれるようになってきた。大規模なシミュレーションモデルを扱う場合、膨大な計算時間を要するため、FPGAを用いてシミュレーションを高速化する研究が行われている。しかし、これまでの研究は主としてアルゴリズムの高速化であり、ユーザの利便性は考えられていなかった。そこでシステム生物学ではデファクトスタンダードとして用いられているモデル記述言語SBMLを利用可能とするためのインタフェイスソフトウェアを実装し、その際のオーバーヘッドなどの評価を取った。
著者
坂本 博和 永本 太一 柴田 裕一郎 小栗 清
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 (ISSN:09151915)
巻号頁・発行日
vol.88, no.2, pp.155-162, 2005-02-01
被引用文献数
2 1

PCA (Plastic Cell Architecture)は動的再構成可能な非同期式論理回路アーキテクチャである.また, 我々は非同期ビットシリアル処理を前提とする新しいPCAアーキテクチャを検討しており, 情報の記憶・加工・移動をシフトレジスタとステートマシンで行うことにより, より効果的に回路を構成できると考えている.しかし非同期ビットシリアル処理回路の設計を信号伝搬を追尾しながら行うのは困難であるので, 本研究では, 非同期ビットシリアル処理回路の設計と, シミュレーションによる動作検証を効率良く行うためのペトリネットモデルをビットシリアルペトリネットとして定義し, これをGUIによる設計・検証ツールとして実装した.更に, 遅延情報なども含めた詳細な検証を行うために, ビットシリアルペトリネットをVerilog-HDLへ変換する機能を追加し, 非同期ビットシリアル処理回路の設計, 検証時間の大幅な短縮を実現した.
著者
松尾 堅太郎 三好 正之 濱田 剛 柴田 裕一郎 正田 備也 小栗 清
出版者
一般社団法人映像情報メディア学会
雑誌
映像情報メディア学会技術報告 (ISSN:13426893)
巻号頁・発行日
vol.33, no.6, pp.201-206, 2009-02-04
参考文献数
9

位相限定相関法は画像マッチング・画像レジストレーションにおいて高いロバスト性とサブピクセル単位での高い精度を実現する計算方法であるが同時に計算コストが膨大であるという側面もある.これまで位相限定相関法の高速化には専用LSIやFPGAを用いた方法が試みられてきた.今回我々は新たにGPU(Graphics Processing Unit)を用いた位相限定相関法の高速化手法を考案し,Nvidia GPU,GeForce8800GTSへ実装を行った.GPU 1台当たりの処理時間に256×256 pixel画像が2.36秒,512×512 pixel画像が7.92秒,1024×1024 pixel画像が27.65秒で処理可能なことを確認し,これが過去の専用LSIやFPGAを用いた場合の計算速度と比較して約10倍程度高速であることを確認した.
著者
土肥 慶亮 頼田 祐二 柴田 裕一郎 小栗 清
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. RECONF, リコンフィギャラブルシステム (ISSN:09135685)
巻号頁・発行日
vol.111, no.31, pp.7-12, 2011-05-05

本稿では,拡張現実(AR)技術の一種であるPTAMで用いられているFAST Corner Detectionの,ストリーム処理を用いたFPGA上での実装を示す.機械学習付きFAST Corner Detectionをコンパクトなハードウェアで実装する上での問題の一つとして,膨大な数のコーナーパターンとのマッチング処理が上げられる.我々は,コーナーパターンの判別式の分割と,回転や反転などの対称性を利用したコーナーパターンの圧縮手法を提案する.提案手法により,組み合わせ回路としてコーナーパターンのマッチング処理が実現できる.FPGA上に実装した機械学習付きFAST Corner Detectionは,リアルタイム処理を実現し,その際のスライス利用率はVirtex-5 FPGAにおいて7〜9%であった.
著者
志田 さや香 柴田 裕一郎 小栗 清
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムLSI設計技術(SLDM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.2, pp.25-30, 2008-01-16

リコンフイギヤラプルマシンでは,CPUとFPGA間のデータ転送がボトルネックになることが多く,転送時間の短縮が求められている.このためSRC-6のDMA転送は複数のオンボードメモリにインタリーブしながらストリーミング処理することが可能となっている.しかし,FPGAの資源制約が大きなアプリケーションでは,インタリーブの前処理としてCPU上でのデータ並べ換えを行う必要がある.本稿では,そのオーバーヘッドを評価し,トレードオフポイントを明らかにした.その結果,1データ列あたり150KB以下の演算を扱う場合,CPU上で並べ換えをした後インタリーブしながらストリーミング処理を行うことで速度向上が実現できることを示した.DMA transfer between a CPU and an FPGA often becomes a bottleneck of current reconfigurable machines. To mitigate this problem, the DMA transfer of SRC-6 supports streaming processing with a on-board memory interleave. However, as a preprocessing of the interleave, the CPU must reorder the data for applications with severe FPGA resource constraints. This paper empirically evaluates this overhead to reveal the trade-off point. The results show that the speedup is achieved by interleaved streaming DMA when FPGAs treat 150 KB or lower of data per stream.
著者
吉見 真聡 長名 保範 岩岡 洋 西川 由理 小嶋 利紀 柴田 裕一郎 岩永 直樹 舟橋 啓 広井 賀子 北野 宏明 天野 英晴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.3, pp.45-58, 2007-02-15
被引用文献数
4

確率モデル生化学シミュレーションアルゴリズム(SSA)は,定義した生化学システムの確率的挙動を厳密に計算できるアルゴリズムとして知られている.しかし,SSA の実行には膨大な計算時間が必要であり,高速な実行環境が求められている.本論文では,高速実行の一手法として,Xilinx 社のFPGA(XC2VP70-5)を用いて,SSA(First Reaction Method)を実行する回路を実装,評価した結果について述べる.高速化は,パイプライン化した演算ユニットを使い,複数スレッドのシミュレーションを同時に実行することで実現する.シミュレータ回路は,中間データをBlockRAM に保持し対象の生化学システムごとの回路再構成を要しない,実用的な構造になっている.ベンチマーク的に定義できる生化学システムTIS,D4S で評価した結果,Xeon 2.80 GHz による実行と比較して,TIS では約83 倍,D4S では約95 倍のスループット向上が可能であることを確認した.This paper discusses an FPGA implementation and evaluation of a Stochastic Simulation Algorithm (SSA) called the First Reaction Method. SSAs are widely known as rigorous methods for simulating the stochastic behaviors of various biochemical systems, but also as CPU-hogging applications due to vast repetition of the algorithm. This work accelerates the execution by achieving high throughput with concurrent simulations of highly utilized pipelined arithmetic units. For upgrading practical utility, the design stores intermediate data in a BlockRAM so that reconfiguration is unnecessary for different target biochemical systems. Benchmark results on an FPGA (Xilinx XC2VP70-5) have shown that the circuit provides throughput of approximately 83 times and 95 times compared to software execution on Xeon 2.80 GHz when it was evaluated with biochemical models called TIS and D4S, respectively.