著者
沖野 晃一 冨田 裕人 橋本 浩二 山崎 雅也 大澤 拓 白川 暁 吉井 卓 岩下 茂信 宮嶋 浩志 村上 和彰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.80, pp.167-172, 1996-08-27
被引用文献数
5

本稿は,九州大学で現在開発中のPPRAM^R_<mf>仕様に基づく最初の試作LSIであるPPRAM^R_<mf>256?4のハードウエア構成について述べている.計画では,0.25μm CMOS,2層金属配線を用いて,"256"Mビット(2Mバイト)DRAMと"4"個の汎用プロセッサを1チップに搭載する.各プロセッサのロジック規模は50万トランジスタ程度で,24Kバイト・キャッシュを装備.プロセッサ当たりのローカル・メモリ容量は8Mバイトとなる.1998年度中の完成を目指している.This paper describes the hardware organization of the first prototype LSI chip based on the PPRAM^R_<mf> architecture, or PPRAM^R_<mf>256-4, which is now under development at Kyushu University. The PPRAM^R_<mf>256-4 will integrate 256Mb DRAM and four processors into a single chip with a 0.25μm CMOS technology. Each PE (Processing Element) will consist of a simple RISC processor of 500KTr, 24Kbyte cache memory, and 8Mb local DRAM memory. The development will complete by March, 1999.
著者
岩下 茂信 宮嶋 浩志 村上 和彰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1995, no.80, pp.1-8, 1995-08-23
被引用文献数
14

21世紀初頭の製品化を目指して,新しい汎用マイクロプロセッサ・アーキテクチャPPRAM(arallel Processing Random Access Memory/Practical Parallel Random Access Machin)を提案している.PPRAMとは,一言で言えば「大容量メモリおよび複数のプロセッサを1チップに集積し,分散メモリ型マルチプロセッサ構成により本質的に高いチップ内メモリ・バンド巾を活用すると同時に,グローバル・レジスタ・ファイルを各プロセッサが共有することでチップ内プロセッサ間での超低レイテンシ通信/同期を可能にしたオンチップ・マルチプロセッサ・アーキテクチャ」である.本稿では,個々のインプリメンテーション(=アーキテクチャ)に依存しない,PPRAMのアーキテクチャ上の枠組(rchitcctural framewor)について述べている.
著者
山村 周史 青木 孝 安藤寿茂
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.79, pp.61-66, 2007-08-01
被引用文献数
2

我々は,ペタスケールシステム向けのプロセッサアーキテクチャの検討を行っている.ペタスケール規模の科学技術計算アプリケーションを高速に実行するためには,大量の浮動小数点演算を高効率で処理できなければならない.これを実現するために,我々は,既存のスカラプロセッサに対して, SIMD 演算ユニットを拡張装備するアーキテクチャを提案する. HPL および PHASE の主要計算ルーチンを対象として,シミュレーションにより本アーキテクチャの性能評価を行い,その有効性について述べる.A processor for a peta-scale supercomputer requires achieving high floating point performance with high energy efficiency. To meet these requirements, we propose an architecture with the combination of a high performance superscalar processor core and wide SIMD processing elements. In this paper, we evaluate its performance and effectiveness with an architecture simulator using math kernels of HPL and PHASE.
著者
高木 秀樹 李 鼎超 石井 直宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.76, pp.109-114, 1997-08-20

プログラム中で使用される変数の大部分は、その生存区間がわずか数命令であるという意味で、shortである。スーパースカラプロセッサでは、これらのshortな変数は、リオーダバッファ内で処理される。これらの変数は、レジスタファイルから読み出されないため、レジスタファイルに書き込むのは無駄である。本稿では、このような無駄な書き込みを軽減し、レジスタアクセスを抑制するためのアーキテクチャサポートの検討を行う。A significant number of program variables are short in the sense that their live range are only few instructions. In superscalar processors using the reorder buffr, their live range may occur within the reorder buffer. Because none of value produced by these variable, would be ever obtained from the register file, they do not need to be written back to the register file. In this paper, we present the architecture support to reduce the number of register access.
著者
渡辺 健司 金田 正一 大津山公平
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.76, pp.73-78, 1997-08-20
被引用文献数
2

Java言語はインターネットユーザの急増と共に現在急速に普及しつつある。Javaは仮想実行環境であるJava Virtual Machine (V)によって実行されるが、これは通常インタプリ夕もしくはJITコンパイラとして実現されている。また、最近ではハードウェアとしてJVMを実現するJavaチップも発表されている。本研究ではJavaクラスファイルを静的・動的に解析することで、JVMをハードウェアで実現する際の効率の良いアーキテクチャについて考える。Java language has been widely used as the number of internet users has grown rapidly. Java is executed with virtual machine environment called Java Virtual Machine (JVM). Usually JVM is realized as interpreter or Just In Time (JIT) compiler, Java chip which can realize JVM with hardware is already announced. In this paper, we analyzed the behavior of Java class file using static and dynamic way and discuss about suitable configuration of Java chip. We specially focused on the cache which can contain operand stack data.
著者
西村 涼平 菅原 豊 入江 英嗣 平木 敬
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.75, pp.79-84, 2008-07-29

近年,半導体の製造技術の向上によって,1 チップに多数のプロセッサコアを集積することが可能になった.これを実現するために,多くの場合,チップを計算能力当たりで簡素にできる SIMD アーキテクチャが採用されている.この流行に沿ったアーキテクチャとして,Cell プロセッサや GPU が挙げられる.この 2 つのアーキテクチャは,マルチコアで SIMD という点では共通しているものの,細部においては様々な差がある.我々は,これらの差がメモリレイテンシの隠蔽やプログラミングの複雑さなどにおいてどのように表れてくるかを,行列積,FFT,ソーティング,そして ZIP ファイルのパスワードクラッキングの 4 つのアプリケーションを使って調べた.Recently, improvement of manufacturing technology of semiconductors has enabled to accumulate a lot of processor cores to one chip. In order to realize this, in a lot of cases, the SIMD architecture that can enable a chip to be simple per computing ability is adopted. We mention the Cell processor and GPUs as the architectures in accordance with this trend. These architectures are common in points of multicore and SIMD, but they are different in various particulars. We investigated how these differences appear in concealment of memory latency and complexity of programming using the four applications of matrix multiplication, FFT, sorting and password cracking of ZIP files.
著者
曽山 典子 神戸 和子 城和貴 加古 富志雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.67, pp.85-90, 1999-08-02

中間表現の研究は永い年月をかけて多くの研究者によって研究されてきた.中間表現の基本構成は共通の認識によって構築されているにもかかわらず,多くのコンパイラでは独自の中間表現を構築し,その実装に多くの時間を費やしている.近年,コンパイラ技術の融合を図るべく統一的中間表現が提案されているが,すでに開発されたコンパイラ技術との融合は困難である.本稿では,すでに実装された異なる中間表現を比較し,それらの相互変換の可能性を調べ,その結果,2つの異なる中間表現は実装上の細部では困難な部分もあるが,概ね可能であることがわかった.同時に各構造体の構成成分がおおよそ同じであることがわかった.Many researchers of parallelizing compilers have proposed various design and implementation schemes of intermediate representations (IRs) for the last several decades. The foundation of IRs seems to reach some common ideas, nevertheless they have actually spent much time to complete the foundation of IRs individually. Recently, the concept of universal IRs (UIRs) has been proposed for such general purpose schemes. According to the schemes, different IRs should be integrated even after their implementations, but it may be hard to obtain common UIRs practically. In this paper, we compare different IRs of two parallelizing compilers, then we show the possibility of the conversion of different IRs. As a result, we find that it is practically possible to convent different IRs except some implementation details of the IR data structures, and there are many similarities between different IRs.
著者
町田 智志 中西 悠 平澤 将一 本多 弘樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.115, pp.71-76, 2007-11-22

Cell Broadband Engine(CBE) は,その高性能計算能力から注目を集めている.しかし,Cell プロセッサの性能を引き出すプログラムを作成するためには,Cell プロセッサ向けに用意された API を用いて,Cell プロセッサ特有の制御処理を記述する必要があり,プログラマの負担となる.そこで本研究では,POSIX スレッドで記述したソースコードを Cell プロセッサ向けに変換するツールを作成し,評価を行った.その結果,プログラマが Cell プロセッサの制御処理を意識することなく,POSIX スレッドによるソースコードを記述するだけで,Cell プロセッサの性能を活用した PPE/SPE ソースコードが得られることが確認できた.Cell Broadband Engine(CBE) with high efficiency computing power attracts attention. However, to draw the performance of Cell processor, a program must be described with API prepared for for Cell processor. In addition, it burdens programmers because the API is a thing peculiar to a Cell processor. In this paper, we developed a tool to convert the source code that was described in a POSIX thread into for a Cell processor and evaluated it. Experimental results show that the proposed tool enables programmers to create PPE/SPE source codes for Cell processor easily without discriptions to control Cell processor.
著者
水原 隆道 中西 恒夫 福田 晃
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.116, pp.79-64, 2001-11-28
被引用文献数
2

ゲノム情報学分野における相同性検索や立体構造予測などのアプリケーションは,巨大なゲノム配列データに対して解析を行うため,特に解析精度を求める場合には、高速な計算機が要求される.本稿では,このようなゲノム情報学アプリケーションに特化した専用プロセッサを設計し,ハードウェアによるその高速処理を図る.同専用プロセッサは,ゲノム情報学アプリケーションによく用いられる動的計画法をデータフロー並列処理により高速化する.ソフトウェアシミュレーションによる予備評価の結果,PentiumIII 1GHz と比べて,約13.5 倍の処理速度が得られることを確認した.Genome informatics applications such as homology search or protein structure prediction, which deal with a huge amount of DNA or amino acid sequences, requires extremely high performance computers especially for accurate analysis. This paper describes design of an application-specific for genome informatics to achieve high performance computing by hardware. The processor accelerates dynamic programming frequently employed by genome informatics applications by data-flow parallel processing. A preliminary experiment by soft-ware simulation shows that the processor can perform dynamic programming 13.5 times as fast as purely software processing by PentiumIII of 1GHz CPU clock.
著者
槻岡秀朗 籠屋健 笹尾 和宏 高橋 雅哉 中村 維男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.61, pp.43-48, 1997-06-27
被引用文献数
3

SOUNDコンピュータは、ニューラルネットワークをプログラム可能にした全く新しい概念のコンピュータである。従来のノイマン型とは、手順の与え方,データの流れ方において異なる。その構成は、コネクションネットワーク,コネクションレジスタ,演算ユニットから成り、各ユニットは、コネクションネットワークを通して繋がっている。その動作は、まず、コネクションレジスタの内容に基づいてコネクションネットワークを繋ぎかえて、データフローグラフをそのままのトポロジーでハードウェア上に実現し、そして、そこに同期式にデータを流して並列処理を行う。その応用分野としては、データの圧縮,伸長,認識や三次元グラフィクスなどのマルチメディア処理や科学技術計算の高速化が挙げられる。The SOUND computer is a novel non-von Neumann computer. Its differences from von Neumann computer are the ways of giving order and flowing data. The SOUND computer consists of a connection network, a connection register, and operation units. Each units is connected through a connection network. In this action, firstly, implement a dataflow gragh directly on a hardware in the same topology, then, execute the graph by flowing data-synchronously. The SOUND computer is aiming at the mathematically sound computer on its hardware and software. And its purpose is to accelerate the scientfic calculation and the multi-media processing such as data compressing, extracting, recognition, and 3-dimensional graphics.
著者
川端 英之 上甲 聖 津田 孝夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.23, pp.161-166, 2000-03-02

大規模数値シミュレーションの一つである粒子輸送コードに代表される、データパラレル指向の並列化に馴染まないアプリケーションに対し、リダクション演算の検出および並列化変換を中心とした自動並列化を施す処理系を開発した。本処理系の特徴は、その強力なリダクション演算検出機能である。従来のリダクション認識手法では解析が困難であった、多重ループ中に複数存在するリダクション演算の認識、及び、配列リダクション変数の検出機能を持つ。間接参照される配列も解析対象である。リダクション認識の過程で、並列化可能性の検査も同時に行なえる。本処理系のリダクション検出アルゴリズムはSSA形式による表現に基づくもので、直接的で簡明であるため、実装も容易である。粒子輸送コードなどに適用し、本手法の有効性を確認した。Particle Transport Code is one of huge-scale Monte Carlo simulation codes. From the nature of the physical model it reflects, there exist parallelism in Particle Transport Code. However, complicated control structures and numbers of reduction operations contained in multiply nested loops in such a code prevent it from being parallelized easily. In this paper, we present algorithms to recognize reduction operations in multiply nested loops. The algorithms can also detect arrays used as reduction variables which are referenced by subscripted subscripts. Experimental results show the technique is effective.