著者
上野 伸也 GauthierLovic Eric 井上 弘士 村上 和彰
雑誌
研究報告システムLSI設計技術(SLDM)
巻号頁・発行日
vol.2011, no.2, pp.1-6, 2011-10-17

画像認識用の機器には高性能・低消費エネルギー化が求められており,その手段としてアクセラレータが注目されている.しかしながら,画像認識アプリケーションの特性は多様であり,実行方式が固定されているアクセラレータでは性能が低下する可能性がある.そこで,処理に応じて実行方式を切り換えることが可能な NIMD/MIMD 型アクセラレータ・アーキテクチャを検討する.また,モデルを用いて NIMD/MIMD 型アクセラレータの性能/消費エネルギー評価を行った.その結果,実行方式を MIMD 方式で固定したものに比べ,約 7% の性能向上と約 40% の消費エネルギー削減効果が得られることが分かった.Image recognition used widely in several areas needs high-performance and low power processor. Accelerator is an effective method of high-performance and low-energy. Because conventional accelerator architecture is fixed while features of image recognition is wide variety, it is difficult for conventional accelerator that high-performance and low-energy execution. This paper describes adaptive accelerator architecture that we call NIMD/MIMD accelerator. NIMD/MIMD accelerator is able to select NIMD (No Instruction streams, Multiple Data streams) execution or MIMD (Multiple Instruction streams, Multiple Data streams) execution. In evaluation used model, we find that NIMD/MIMD accelerator is 7% faster and 40% lower energy than MIMD accelerator.
著者
井上 弘士 村上 和彰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2000, no.110, pp.25-30, 2000-11-29
参考文献数
7
被引用文献数
3

現在多くのプロセッサ・チップには, 当然のようにキャッシュ・メモリが搭載されている.また, 更なるヒット率の向上を目的として, キャッシュ・サイズは年々増加傾向にある.そのため, キャッシュ・アクセスにおける消費エネルギーが増大し, ひいては, チップの全消費エネルギーに大きな影響を与えるようになってきた.特に, 命令キャッシュへのアクセスは毎クロック・サイクル発生するため, その低消費エネルギー化が極めて重要となる.そこで本稿では, ダイレクト・マップ命令キャッシュの低消費エネルギー化を目的として, ヒストリ・ベース・タグ比較方式を提案する.プログラムの実行履歴に基づき, 必要に応じてタグ比較を行うことで, キャッシュ・アクセス当りの消費エネルギーを削減できる.複数ベンチマークを用いた実験の結果, 従来型タグ比較方式と比較して, 全ての浮動小数点プログラムで約90%以上, 2つの整数プログラムで約80%以上のタグ比較を削減できた.
著者
井上 弘士 Moshnyaga Vasily G. 村上 和彰
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム (ISSN:09135685)
巻号頁・発行日
vol.102, no.27, pp.55-60, 2002-04-12

これまでに我々は,ダイレグト・マップ命令キャッシュの低消費エネルギー化を目的として,ヒストリ・ベース・タグ比較(HBTC:History Based Tag-Comparison)方式を提案した.従来型キャッシュでは,ヒット/ミス判定のために,タグ比較が毎アクセス実行される.これに対し,HBTCキャッシュでは,プログラムの実行履歴に基づき必要に応じてタグ比較を行う.そして,無駄なタグ比較処理を動的に検出・削除し,命令キャッシュの低消費エネルギー化を実現する.本稿では,これまでに提案したHBTCキャッシュを改良し,オーバヘッドの小さい新しい実現方式を示す.また,信号処理アプリケーションを中心としたベンチマーク・プログラムを用いて,性能ならびに消費エネルギーに関するより詳細な評価を行う.
著者
中垣 憲一 井上 弘士 久我 守弘 末吉 敏則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム
巻号頁・発行日
vol.94, no.257, pp.17-24, 1994-09-22
被引用文献数
17

先進的計算機システムの基礎技術を理解・修得させるための教材として,上級コース向き教育用マイクロプロセッサDLX-FPGAの開発を行った.プロセッサ・モデルとしてJ.L.Hennessy and D.A.Patterson著"Computer Architecture:A Quantitative Approach"で紹介されているDLXアーキテクチャを採用し,実装デバイスとしては再構成可能なFPGAを用いている.本稿では,この教育用マイクロプロセッサDLX-FPGAの特徴と設計仕様を述べ,回路図入力による設計例とVHDLによる設計例を示す.また,複数のFPGAを用いた実装,ならびにその動作検証を行うDLX-FPGAボードのラピッド・プロトタイピングについて報告する.
著者
安浦 寛人 村上 和彰 黒木 幸令 櫻井 幸一 佐藤 寿倫 篠崎 彰彦 VASILY Moshnyaga 金谷 晴一 松永 裕介 井上 創造 中西 恒夫 井上 弘士 宮崎 明雄
出版者
九州大学
雑誌
学術創成研究費
巻号頁・発行日
2002

本研究では,システムLSI設計技術を今後の高度情報化社会を支える基盤情報技術ととらえ,システムLSIに十分な機能・性能・品質・安全性・信頼性を与えるための統合的な設計技術の確立を目指す.1.高機能・高性能なシステムLSIを短期間に設計する技術では,無線通信機能を有するシステムLSI設計技術の研究を行い,シリコンチップ上にコンパクトで安定なRFフロントエンドを実現するためにコプレナー線路を通常のCMOSプロセスで形成する技術を確立した.また,新しい可変構造アーキテクチャとしてSysteMorphやRedifisプロセッサを提案し,それに対する自動設計ツールとしてRedifisツール群を開発した.2.必要最小限のエネルギー消費を実現する技術としては,データのビット幅の制御,アーキテクチャの工夫,回路およびプロセスレベルでのエネルギー削減技術,通信システム全体の低消費エネルギー化設計手法などを構築した.3.社会基盤に求められる信頼性・安全性を実現する技術としては,安全性・信頼性を向上させるための技術として,ハッシュ関数や暗号用の回路の設計や評価を行った.また,電子投票システムや競売システムなどの社会システムの安全性を保証する新しい仕組みや,セキュリティと消費電力および性能のトレードオフに関する提案も行った.4.社会システムの実例として,個人ID管理の仕組みとしてMIID(Media Independent ID)を提案し,権利・権限の管理なども行えるシステムへと発展させた.九州大学の全学共通ICカードへの本格的な採用に向けて,伊都キャンパスの4000名の職員、学生にICカードを配布して実証実験を行った.本研究を通じて,社会情報基盤のあり方とそこで用いられるシステムLSIの研究課題を明示した.RFIDや電子マネーへの利用についても利用者や運用者の視点からの可能性と問題点をまとめることができた.
著者
眞下 達 塩谷 亮太 井上 弘士
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2020-ARC-240, no.32, pp.1-11, 2020-02-20

動的スクリプト言語は幅広い分野で利用されているものの,その実行時オーバーヘッドが大きな課題となっている.動的スクリプト言語を処理する仮想マシンでは一般に,実行時にさまざまな要素を動的に解決する必要がある.特に,仮想マシン上のオペランドの処理では多くのメモリ・アクセスを必要とし,それが実行性能を下げる大きな要因となっている.このオーバーヘッドを削減するために我々は OFAR (Operand Fetching And Remapping)と呼ぶ手法を提案する.OFARは,(1) オペランド値の浮動小数点物理レジスタ (FPPR: Floating-Point Physical Register) へのマップと,(2)オペランド番号のフロントエンドによるフェッチの,2つから成る.一般に,仮想マシンの大分部は整数命令によって実装されており,FPPR の大部分は使用されていない.これを利用し,通常はメモリ上に置かれる仮想的なオペランドの値を FPPR にマップする.これにより,オペランド・アクセスに伴うメモリ・アクセスの多くを省略することができる.また一般に,仮想命令のオペランド番号は基本的には不変であり,命令コードと同様に演算の結果により書き換わることがない.これを利用し,通常はバックエンドで読み出されるオペランド番号を,命令フェッチと同じようにしてフロントエンドで読み出す.これにより,オペランド番号をロードするための命令が省略されることに加え,早期にオペランド番号が得られることによりレイテンシを削減する.
著者
田中 雅光 藤巻 朗 井上 弘士
出版者
公益社団法人 低温工学・超電導学会 (旧 社団法人 低温工学協会)
雑誌
低温工学 (ISSN:03892441)
巻号頁・発行日
vol.52, no.5, pp.323-331, 2017-09-20 (Released:2017-10-27)
参考文献数
50

The recent trend and perspectives for high-performance microprocessors based on superconductor single-fluxquantum (SFQ) logic families are described. The rapid single-flux-quantum (RSFQ) and its energy-efficient derivatives are promising as a next-generation digital circuit technology for very-large-scale integration in the post-Moore's era because of the capability of ultrahigh-frequency operation over 100 GHz and low energy consumption. Several ongoing research projects as well as results reported, including several demonstrations of SFQ-based microprocessors and their components, are reviewed.
著者
稲富 雄一 井上 弘士
出版者
日本コンピュータ化学会
雑誌
Journal of Computer Chemistry, Japan (ISSN:13471767)
巻号頁・発行日
vol.14, no.6, pp.201-202, 2016 (Released:2016-01-31)
参考文献数
2

Power is the most important resource on the next-generation supercomputers, and they will be operated under power constraint. Therefore, there is a need to maximize performance of HPC application under power constraint. To do such optimization, we've developed and reported a method to improve performance by power allocation for each processor, which is called the variation-aware power budgeting. In this study, we carried out large-scale performance evaluation of a proposed method for two mini-applications related to molecular science, Modylas-mini and NTChem-mini. As a result, our method can improve their performance under power constraint up to 1.99 times speedup compared to conventional power constraint.
著者
福本 尚人 佐々木 広 井上 弘士 村上 和彰
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.5, no.3, pp.101-111, 2012-05-29

本稿では,マルチコア・プロセッサの性能向上を目的としたヘルパースレッド実行法を提案する.マルチコア・プロセッサの性能向上阻害要因として,メモリウォール問題の顕著化がある.これに対して,プロセッサ・コアを「演算用」だけでなく「メモリ性能向上用」に用いることで,性能向上を目指す.メモリ性能向上用のコアでは,プリフェッチを行うヘルパースレッドを実行する.提案方式では,コア間の同期などによりアイドルとなったコアを活用しヘルパースレッド実行を行う.さらに,メモリ性能がボトルネックとなる場合,並列プログラムを実行するコアを減らしてヘルパースレッドを実行する.これにより,プログラムの特徴に応じてメモリ性能向上用のコア数を変更することで,演算性能とメモリ性能の間の適切なバランスをとる.提案方式をシミュレータを用いて評価した結果,従来の全コア実行に対して最大で42%の性能向上を達成した.This paper proposes the helper threads management technique for a multicore processor, and reports its performance impact. Integrating multiple processor cores into a single chip, can achieve higher peak performance by means of exploiting thread level parallelism. However, the memory-wall problem becomes more critical in multicore processors, resulting in poor performance in spite of high TLP. To solve this issue, we propose an efficient helper threads management technique. Unlike conventional parallel executions, this approach exploits some cores to improve the memory performance. In our evaluation, the proposed approach can achieve 42% performance improvement to a conventional parallel execution model.
著者
橋口 慎哉 福本 尚人 井上 弘士 村上 和彰
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2011, pp.306-315, 2011-05-18

本稿では,3 次元積層 DRAM の利用を前提とし,大幅なチップ面積の増加を伴うことなく高いメモリ性能を達成可能な新しいキャッシュ・アーキテクチャを提案する.3 次元積層された DRAM を大容量キャッシュとして活用することで,オフチップメモリ参照回数の劇的な削減が期待できる.しかしながら,その反面,キャッシュの大容量化はアクセス時間の増加を招くため,場合によっては性能が低下する.この問題を解決するため,提案方式では,実行対象プログラムのワーキングセット・サイズに応じて 3 次元積層 DRAM キャッシュを選択的に活用する.ベンチマークプログラムを用いた定量的評価を行った結果,提案方式は動的制御方式で平均 15% の性能向上を達成した.
著者
林 徹生 本田 宏明 稲富雄一 井上 弘士 村上 和彰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.103-108, 2006-07-31
被引用文献数
2

今日に至るまで種々のプロセッサ・アーキテクチャが提案され,プロセッサの計算性能は著しく向上している.現在では1個のチップに複数のプロセッサコアを搭載することで性能向上を図るチップマルチプロセッサ(CMP)が数多く提案されるに至っているが,高い計算性能を誇るCellプロセッサもその一つである.また,CMPチップの用途として主にメディア処理が想定されているが,その高い計算能力を生かすことで分子軌道法計算等の科学技術計算にも利用可能と考えられる.そこで本研究ではCellプロセッサに分子軌道法計算の主たる計算部分である二電子積分計算を実装し,その性能を評価する.また,分子軌道法計算のような科学技術計算へ対する今後のCMPチップの利用可能性を考察する.As various architectures of processor are proposed until today, the processor performance improves remarkably. Now many chip multiprocessors that planed to improve performance by implementing some processor cores on a chip are proposed, and processor ``Cell'' is one of them. Though the media processing is mainly assumed as a usage of the chip, we think that we can apply their high performance to Science and Technology calculation like Molecular Orbital(MO) calculation. In this paper, we implement Two Electron Integral calculation that is core of MO calculation on Cell processor, and evaluate performance. And we consider the use possibility of chip multiprocessor for Science and Technology calculation like MO calculation.