著者
中野 啓史 内藤陽介 鈴木 貴久 小高 剛 石坂 一久 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.80, pp.115-120, 2004-07-31
被引用文献数
2

現在,次世代のマイクロプロセッサアーキテクチャとして,複数のプロセッサコアを1チップ上に集積するチップマルチプロセッサ(CMP)が大きな注目を集めている.これらのCMPアーキテクチャにおいても,従来のマルチプロセッサシステムで大きな課題となっていたキャッシュやローカルメモリ等のプロセッサコア近接メモリの有効利用に関する問題は依然存在する.筆者等はこのメモリウォールの問題に対処し,高い並列性を抽出し効果的な並列処理を実現するために,マルチグレイン並列処理との協調動作により実効性能が高く価格性能比の向上を可能にするOSCAR CMPを提案している.このOSCAR CMPは,集中共有メモリ(CSM)に加え,プロセッサのプライベートデータを格納するローカルデータメモリ(LDM),プロセッサコア間の同期やデータ転送にも使用する2ポートメモリ構成の分散共有メモリ(DSM),プロセッサコアと非同期に動作可能なデータ転送ユニット(DTU)を持つ.本稿では,FORTRAN プログラムをループ・サブルーチン・基本ブロックを粗粒度タスクとする.粗粒度タスク並列処理において,配列の生死解析情報を用いて粗粒度タスクの並び替えを行い,プログラムのデータローカリティを抽出するデータローカライゼーション手法について述べる.データ転送は,コンパイラにより自動生成したDTUによるデータ転送命令を用いてバースト転送を行う.Recently, Chip Multiprocessor (CMP) architecture has attracted much attention as a next-generation microprocessor architecture, and many kinds of CMP have widely developed. However, these CMP architectures still have the problem of effective use of memory system nearby processor cores such as cache and local memory. %This problem has also been one of the most important problems for ordinary %multiprocessors. On the other hand, the authors have proposed OSCAR CMP, which cooperatively works with multigrain parallel processing, to achieve high effective performance and good cost effectiveness. To overcome the problem of effective use of cache and local memory, OSCAR CMP has local data memory (LDM) for processor private data and distributed shared memory (DSM) having two ports for synchronization and data transfer among processor cores, centralized shared memory (CSM) to support dynamic task scheduling, and data transfer unit(DTU) for asynchronous data transfer. The multigrain parallelizing compiler uses such memory architecture of OSCAR CMP with data localization scheme that fully uses compile time information. This paper proposes a coarse grain task static scheduling scheme considering data localization using live variable analysis. Data is transferred in burst mode using automatically generated DTU instructions.
著者
雨宮 聡史 松崎 隆哲 雨宮 真人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.119, pp.51-56, 2003-11-27
被引用文献数
8

現在,マルチスレッド実行を意識したプロセッサの開発が主流になりつつある.しかし,大多数のプロセッサは命令レベルの並列性の抽出を追求しているものである.我々は命令レベルの並列性の追求をやめて,スレッドレベルの並列性のみに焦点を当て,データフローモデルを基盤とし、継続概念を核としたマルチスレッド実行モデルを提案する.また,このモデルを実現するオンチップ・マルチプロセッサの構成および命令セットアーキテクチャについて提案する.Nowadays, development of processors which support concurrent multi-thread execution is becoming mainstream. However, most of the processors are aimed for exploiting instruction level parallelism. We are taking another approach, and developing the processor focused only on thread level parallelism. Our processor is named Fuce, and it is based on the continuation model which is a variant of data flow computing model. In this paper, we introduce the programming model for Fuce and the architecture of Fuce.
著者
中村 宏 天野 英晴 宇佐美 公良 並木 美太郎 今井 雅 近藤 正章
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.55, pp.79-84, 2007-06-01
参考文献数
9
被引用文献数
17

我々は、科学技術振興機構の戦略的創造研究推進事業(CRESTタイプ)の「情報システムの超低消費電力化を目指した技術革新と統合化技術」領域において、平成18年度より「革新的電源制御による次世代超低電力高性能システム LSI の研究」の研究課題を実施している。本プロジェクトは、回路実装、アーキテクチャ、システムソフトウェアの各階層が真に連携・協調し、革新的な電源制御を実現することで高性能システム LSI の消費電力を格段に低下させることを目指している。本稿では、本プロジェクトの構想と目標達成への戦略について述べると共に、現在実施している各研究項目の一部について概要を述べる。We have started a research project of "Innovative Power Control for Ultra Low-Power and High-Performance System LSIs" since 2006 supported by Japan Science and Technology Agency as a CREST research program. The objective of this project is drastic power reduction of high-performance system LSIs. We are planning to achieve this goal by innovative power control realized by tight cooperation and cooptimization of various design levels including circuit, architecture, and system software. In this paper, we present the plan, the strategy, and the current status of our project.
著者
今田 啓介 酒井 洋介 大塚 智宏 鈴木 順 樋口 淳一 飛鷹 洋一 天野 英晴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.75, pp.163-168, 2008-07-29

NEC により開発が進んでいる ExpEther は,PCI Express と Ethernet を統合するネットワークインタフェースである.本稿では,ExpEther を対象とする RDMA 通信機構を実装したネットワークインタフェースコントローラを利用するためのソフトウェア環境が RDMA 通信機構の性能に与える影響についての評価を述べる.実験用システムにおいて,RDMA 通信に必要な通信用バッファの Physical Buffer List (PBL) の取得に要する時間を測定した結果,1MByte の領域に対して 8.35μsec で済み,同じ領域に対するピンダウン処理の時間の半分程度であり,十分実用的であることがわかった.また PCI Express NIC に対するメモリアクセスをユーザレペルで行った場合のメモリアクセスレイテンシは 0.58μsec であり,カーネルを経由した場合と比べて 54.3% 削減できることを確認した.ExpEther by NEC is a network interface for a bridge between PCI Express and Ethernet for network connected virtual computer environment. In this paper, evaluation of the software environment which supports access to ExpEther network interface card (NIC) is described. On our experimental system, it takes 8.35μsec to get Physical Buffer List (PBL) for RDMA data transfer using 1MByte buffer. It is almost a half of time for pin-down the same memory area, and practical. The user-level memory access latency was 0.58μsec, and the overhead of using the kernel corresponding to 54.3% of execution time is removed.
著者
吉田 雅治 天海良治 山崎 憲一 中村 昌志 竹内 郁雄 村上 健一郎
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1995, no.98(1995-ARC-114), pp.17-24, 1995-10-19

記号処理システムの核となるプロセッサSILENTのアーキテクチャ,実験機構成,及び簡単な性能評価について述べる.SILENTは記号処理のみならず,知能ロボットやコンピュータグラフィックス等の分野への適応も考慮し,画像生成計算機SIGHT?2で提案したTARAI演算器と密結合マルチプロセッサを構成することを前提としている.SILENT?CPUは0.7μCMOSゲートアレーで作成した.LSIの回路規模は97kgates,33MHzで動作している.SILENTアーキテクチャの性能評価のために実験機を作成し,マイクロプログラムでLispの処理系を実装した.関数呼び出しのオーバーヘッドを計測するtarai関数の実行時間を比較したところ,SILENTはELISの10倍以上の性能を得た.
著者
薦田登志矢 佐々木 広 近藤 正章 中村 宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.101, pp.33-38, 2008-10-12

近年, LSI のリーク消費電力の増加が問題となっている.本稿では,これに対し,演算器の実行時リークエネルギーを削減することを目的としたコンパイラによる PG 制御手法を検討している.この手法においては,コンパイラによって命令にスリープビットと呼ばれるビットを付加することで演算器内部の演算ユニットに対して細粒度な PG を適用する.ここでは,実行時命令履歴を解析し,この PG 制御手法の潜在的なリーク電力削減効果を見積もった.その結果,理想的なスリープビット付加が達成された場合,演算ユニットのリーク電力を大幅に削減できることが分かった.As semiconductor technology scales down, leakage-power becomes dominant in the total power consumption of LSI chips. For reducing runtime leakage-energy of execution units, we propose a compiler-based control power-gating strategy. In the proposed control starategy, we need to add 1 bit to instructions, which is called the ``sleep bit''. Sleep bit decides whether the execution unit should sleep or not after its use. We estimate the maximum effect of the proposed strategy by analyzing the instruction and cache miss trace information. The result shows that the proposed strategy have great potential to reduce run-time leakage-energy of execution units.
著者
間瀬 正啓 馬場 大介 長山 晴美 田野 裕秋 益浦 健 深津幸二 宮本 孝道 白子 準 中野 啓史 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.127, pp.1-6, 2006-11-28
被引用文献数
3

マルチプロセッサ、マルチコアアーキテクチャの普及に伴い、ハイパフォーマンスコンピューティング分野から組み込み分野に至る様々な分野で、その特性を引出し高実効性能・低消費電力を実現する自動並列化コンパイラの重要性が高まっている。本稿ではプログラム全域の並列性およびデータローカリティの有効利用が可能なマルチグレイン並列処理を実現する、OSCARコンパイラのC言語対応について述べる。OSCARコンパイラにおけるC言語対応を迅速に行うために制約付きC言語を定めた。MPEG2エンコード、MP3エンコード、AACエンコードの各メディアアプリケーション、組込み向けベンチマークMiBenchよりsusan(smoothing)、SPEC2000よりartについてC言語対応OSCARコンパイラによる自動並列化の初期性能評価を行い、8プロセッササーバであるIBM p5 550上でIBM XL Cコンパイラversion 8.0の逐次処理と比較してsusan(smoothing)で最大7.49倍、4プロセッサワークステーションであるSun Ultra80上でSun Studio 9 Cコンパイラの逐次処理と比較してsusan(smoothing)で最大3.75倍の速度向上が得られた。Along with the popularization of multiprocessors and multicore architectures, automatic parallelizing compiler, which can realize high effective performance and low power comsumption, becomes more and more important in various areas from high performance computing to embedded computing. OSCAR compiler realizes multigrain automatic parallelization, which can exploit parallelism and data locality from the whole of the program. This paper describes C language support in OSCAR compiler. For rapid support of C language, restricted C language is proposed. In the preliminary performance evaluation of automatic parallelization using following media applications as MPEG2 encode, MP3 encode, and AAC encode, Susan (smoothing) derived from MiBench, and Art from SPEC2000, OSCAR compiler achieved 7.49 times speed up in maximum for susan (smoothing) against sequential execution on IBM p5 550 server having 8 processors, and 3.75 times speed up in maximum for susan (smoothing) too against sequential execution on Sun Ultra80 workstation having 4 processors.
著者
石川 正俊
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.15, pp.27-32, 1997-02-03

将来のチップ間自由空間光インターコネクションの実現を目指して、面発光レーザーを光源として、位相変調タイプの液晶空間光変調素子上に書き込まれた最適化された計算機ホログラムによる再構成可能な光インターコネクション実現方法並びに具体的なシステムを示す.このシステムの特徴は、コンパクトなプロセッシングエレメントをを設計することにより、並列処理回路を集積化し、面発光レーザーと組み合わせたモジュールによりフレキシブルな処理を実現している点にある.また、実際のシステム動作を実現している点にも特徴がある.本論文では、最近の進展も交えて、具体的な構造と動作について述べる.As a first step of free-space optical interconnection among chips in future, a reconfigurable optical interconnection system using computer generated hologram optimized by simulated annealing and written on a phase modulation type liquid spatial light modulator is shown. A combination of a VCSEL array as a light source and originally designed compact processing element array makes a parallel processing module as aa building block. In this paper the architecture of the system and system behavior are described.
著者
坂村健
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1984, no.78(1984-ARC-057), pp.1-10, 1985-03-28
著者
佐々木 敬泰 高山 毅 弘中 哲夫 藤野 清次
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.76, pp.127-132, 1997-08-20
参考文献数
5
被引用文献数
1

本稿では,著者らが提案している投機的問合せ処理をマルチトランザクション環境下で高速に行う手法を提案する.投機的問合せ処理とは,ユーザが検索条件を入力する前の検索条件を考慮している間に,投機的に間合せ処理を開始することにより応答時間を短縮するものである.従来の実装方式では,投機のためのプロセス生成を動的に行っていたため、マルチトランザクション環境下において,通信/OSのオーバヘッドの累積が無視できず,応答時間が必ずしも十分短いとはいえなかった.本稿では,プロセスの起動を静的に行うことにより,上記オーバヘッドを低減することで高速化を行う.シミュレーション・プログラムを用いた評価によると,本稿の提案手法では,従来よりも応答時間の短縮が図れることがわかった.This paper proposes a methodology in order to reduce a response time of speculative query processing in multi-transactions environments. The speculative query processing is a technique, we propose to reduce a response time. That is, the DB system starts to process, in parallel some candidate queries corresponding to their distinct selection conditions before a single true selection condition is inputted. This paper proposes an effective algorithm for multi-transactions environments. With the algorithm, it is possible to keep the overheads down on communications and OS, and to reduce a response time. According to our experiments, this algorithm is more effective than the conventional method.
著者
村上 和彰 吉井 卓 岩下 茂信
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1994, no.91, pp.49-56, 1994-10-27
被引用文献数
15

順調に成長を続けるトランジスタ集積度を技術的背景として,(i)汎用マイクロプロセッサ,(ii)汎用メモリ,および,(iii)粗粒度機能メモリの3面性を備えた新しい汎用機能部品PPRAM(Parallel Processing Random Access Memory Practical Parallel Random Access Machine)を提案している.PPRAMは,(i)大容量の汎用メモリ(SRAMあるいはDRAM),(ii)1個以上の汎用プロセッサ,および,(iii)外部インタフェースを1チップに集積したものである.その方向性は,今日の高性能マイクロプロセッサが進みつつある方向と一致してはいるものの,その目指す製品形態は大きく異なる.本稿ではさらに,PPRAMの応用形態をいくつか紹介し,PPRAM実現に向けて検討すべき課題を示している.This paper proposes a novel concept of LSI products, called PPRAM(Parallel Processing Random Access Memory, Practical Parallel Random Access Machine), which provides the trinity of conventional LSI products: (i) microprocessors, (ii) DRAM and SRAM, and (iii) coarse-grain functional memory. The PPRAMis defined as an LSI which incorporates (i) DRAM or SRAM, (ii) one or more processors, and (iii) external interface logic into a single chip. This paper also illustrates some applications of PPRAM, and then discusses several issues to be resolved to realize the concept of PPRAM.
著者
手塚 宏史 堀 敦史 O-CarrollFrancis 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.18, pp.25-30, 1998-03-05
参考文献数
20
被引用文献数
8

我々はPentium Pro 200MHzのPC64台をMyrinetギガビットネットワークによって接続したPCクラスタシステム"RWC PC Cluster II"を構築し,その上にマルチユーザの並列プログラミング環境SCoreを開発している.PCC2上の通信ライブラリPMは通常のメッセージ転送だけでなくリモートメモリライトによるゼロコピーデータ転送をサポートしており,約119Mバイト/秒(Kバイトデータ)のメッセージ転送バンド幅と約109Mバイト/秒(同8Kパイト)のリモートメモリライトバンド幅,および約7.5マイクロ秒(同8バイト)の通信レイテンシを持っている.また,PMのこれらの機能を用いたMPI/PMはPCC2上で約104Mバイト(同1Mバイト)のデータ転送バンド幅と約11マイクロ秒(同8バイト)の通信レイテンシを得ている.MPI/PMを用いたNASパラレルベンチマークの結果によって,PCC2の高い性能とスケーラビリティが実証された.We have built a PC cluster "RWC PC Cluster II" consisting 64 Pentium Pro 200MHz PCs connected by a Myrinet giga-bit network, and have been developing a multi-user parallel programming environment SCore on it. A communication library PM on PCC2 supports a message passing and a remote memory write using zero-copy data transfer. PM achieves 119M bytes/s (8K byte data) message passing bandwidth, 109M bytes/s (8K byte data) remote memory write bandwidth and 7.5 micro second communication latency. MPI/PM that uses these PM facilities achieves 104M bytes/s (1M byte data) data transfer bandwidth and 11 micro second communication latency on PCC2. The NAS parallel benchmark results using MPI/PM have shown PCC2's high performance and scalability.
著者
五島 正裕 岡田 智明 細見 岳生 森 眞一郎 中島 浩 富田 眞治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1993, no.71, pp.121-128, 1993-08-19
被引用文献数
2

我々は,一つのアーキテクチャで共有メモリ型およびメッセージ・パッシング型の両方の通信モデルをサポートすることが重要であると考え,スケーラブルな共有メモリ・マルチプロセッサのコヒーレント・キャッシュ・システムとメッセージ通信機能を統合することを試みている.本システムではI?StructureやFIFOなどの同期構造体を利用して高速な細粒度メッセージ通信を実現する.本稿ではこのキャッシュ・システムのコヒーレンス制御方式とメッセージ通信機構について述べる.Based on an opinion that a single architecture should support communication models of both shared memory type and message passing type, we are trying to integrate message communication mechanism with the coherent cache system on the shared memory multiprocessor. This system realizes fast fine-grain message communication by utilizing the synchronization structure such as I-Structure or FIFO. In this paper, we describe the coherence control method and the message communication mechanism of the system.
著者
越智 裕之
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.102, pp.97-102, 1997-10-28
参考文献数
9
被引用文献数
2

本稿では、今後ますます進歩する半導体技術にふさわしいFPGAアーキテクチャの将来像として、Field Programmable Accumulator Array (PA)を提案する。これはFPGAの基本セル中のLUTをALUに量き換えたものである。主な応用を固定語長の数値処理に特化することにより、高速化、高集積化、コンパイルや再構成の容易さなどを狙う。現在のテクノロジで実現可能な第1世代のFPAAチップの試作経過や、近い将来に浮動小数点演算対応、DRAM混載の第3世代FPAAによって非ノイマン型の新たなスーパーコンピューティング向きアーキテクチャが誕生する可能性についても言及する。This paper proposes the Field Programmable Accumulator Array (FPAA) as an FPGA architecture in a near future. Each cell in an FPAA has an ALU, while each cell in an FPGA has LUTs. FPAAs are useful especially for numerical processing, and we can expect higher-speed, higher-density, easier compilation, and less time for reconfiguration compared with FPGAs. This paper also reports on the first-generation FPAA chip which the author is currently designing, and discusses the possibility of the third-generation FPAAs which has hundreds of floating-point ALUs and on-chip DRAM to establish a new style of supercomputing.
著者
塚本 智博 片桐 孝洋 吉瀬 謙二 弓場 敏嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.17, pp.55-60, 2007-03-01
被引用文献数
1

本研究では,プロセッサの省電力化を目的として,DVFS制御を利用したプロファイル情報に基づく最適化コンパイラを開発した.プログラムの稼動条件による時間的制約と電力的制約のそれぞれに対応する最適化方として,(1)実行時間の増加を許容範囲内に抑えて消費電力量を削減する,(2)消費電力量を許容範囲内に抑えてできるだけ高い性能を達成する,という2つを設定した.また,x86プロセッサが持つタイムスタンプカウンタをプロファイル情報として利用することで,オーバヘッドを低く抑えてプロファイルできることを示した.本最適化コンパイラにより,ユーザが指定する実行時間の許容範囲に対して,平均で5%程度の誤差に抑えて,プロセッサの消費電力量を削減できることを確認した.また,消費電力量の許容範囲に対しては,平均で5%程度の誤差に抑えられることを確認した.We developed an optimization compiler based on the profile information that uses DVFS control for power-saving of CPU. We set two optimization policies, to this optimization compiler :(1)optimization based on the threshold of execution time; (2)optimization based on the threshold of energy consumed. In addition, we implemented a profile option with a low overhead using the x86 processor's Time Stamp Counter into this optimization compiler. We conclude that our optimization compiler is acceptable, since it has only 5% error on average to a specified parameter threshold from users.
著者
阿江 忠 酒居 敬一 豊崎 剛
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1994, no.91, pp.79-86, 1994-10-27

メモリベース推論はモデル表現が陽でないリアルワールド向きであるが、そのインプリメントに通常の超並列マシンを用いることはコストパフォーマンスの点で問題がある。メモリベース推論はメモリベースアーキテクチャで実現するのが適当であり、ニューラルネットを能動メモリとして採用することができる。一方、メモリベース推論のみでトータルシステムを構築するのは困難であり、通常のAIシステムとの融合も必要となる。新機能マシンNFMは、知識の獲得、表現をメモリベースで行ない、知識の進化を協調動作により実現するシステムであるが、メモリベースのオブジェクトとプログラムベースのオブジェクトの協調動作を利用するのも特徴の一つである。The conventional massively parallel computers are too huge to implement the memory-based reasoning that is appropriate to realize the real world. The memory-based architecture fits the memory-based reasoning, where the neural networks play an role of active memory. The total system, however, requires also the conventional AI tecnique, and therefore, it must be realized to combine the memory-based reasoning with the conventional reasoning. NFM, a new functional machine, is proposed for this pupose and its outline is described.
著者
近江谷 康人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.80, pp.85-90, 2005-08-04
被引用文献数
1

コンピュータ製品開発において,市販の高性能マイクロプロセッサを用いてバイナリ互換を実現するアーキテクチャエミュレーション手法は,開発効率面で有効である.特に動作原理が単純かつホストアーキテクチャ依存度が低いC言語実装によるインタプリタ方式は,開発費,品質,保守性の点で実際的である.本稿では,将来の製品性能の予測を行なうため,インタプリタの性能(CPI)を分析している.複数種のインタプリタを複数種のホスト上に構築して,命令頻度とともに実行時間を計測した結果,コアループが44~70%占めていることが判った.また,上位約20命令の処理時間と頻度から見積もったCPU時間は実測値とほぼ同等であり,見積りの正確性を示している.Architectural emulation technique using high-performance microprocessors is a cost-effective tool for developing a new computer product with keeping the binary compatibility. Especially the interpreter written in C language, based on simple structure and architecture-free implementation, is practical in development-cost, quality and maintainability. Here, CPI (Clock cycles Per Instruction) of interpreters is analyzed in order to forecast the future product performance. Through the analysis by counting frequency of each instruction and measuring emulation time of several interpreters versions on multiple host architectures, it appears that the core-loop wastes 44 to 70 percent of time. This paper also shows that an estimated total CPU time, calculated from top-twenties of each instruction's time and frequency, is well matched to the real emulation time, thus, it is useful to prospect the real performance.
著者
稲石大祐 木村 啓二 藤本 謙作 尾形 航 岡本 雅巳 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.70, pp.31-36, 1998-08-05
被引用文献数
2

従来のコンパイラによる単一プロセッサ用キャッシュ最適化は個々のループを対象としているため、プログラム全体に比べると局所的な最適化が多く、プログラム全域を対象としたキャッシュ最適化は行われていない。そこで本稿では、最早実行可能条件解析を利用した単一プロセッサ上でのFORTRANプログラムのキャッシュ最適化手法を提案する。OSCAR FORTRANマルチグレイン自動並列化コンパイラは、FORTRANプログラムをループ・サブルーチン・基本ブロックの3種のマクロタスク(MT)に分割し、各MTに最早実行可能条件解析を行いマクロタスクグラフ(MTG)を生成する。MTGは制御依存及びデータ依存に基づくMT間の実行順序制約、及びMT間で授受されるデータに関する情報を表現する。本手法ではこのMTGを用いて、先行MTによってアクセスされたデータにアクセスする後続MTが先行MTの直後に実行されるよう大域的なコード移動を行い、キャッシュヒット率を向上させる。本手法は、OSCAR FORTRANマルチグレイン自動並列化コンパイラ中に、最適化された逐次型FORTRANを出力するプリプロセッサ機能として実現されている。CG法プログラムを用いた本キャッシュ最適化手法の性能評価結果を行ったところ167MHz UltraSPARC上で最高62%の速度向上が得られた。Cache optimizations by a compiler for a single processor machine have been mainly applied to a singlenested loop. On the contrary, this paper proposes a cache optimization scheme using earliest executable condition analysis for FORTRAN programs on a single processor system. OSCAR FORTRAN multi-grain automatic parallelizing compiler decomposes a FORTRAN program into three types of macrotasks (MT), such as loops, subroutines and basic blocks, and analyzes the earliest executable condition of each MT to extract coarse grain parallelism among MTs and generates a macrotask graph (MTG). The MTG represents data dependence and extended control dependence among MTs and an information of shared data among MTs. By using this MTG, a compiler realizes global code motion to use cache effectively. The code motion technique moves a MT, which accesses data accessed by a precedent MT on MTG, immediately after the precedent MT to increase a cache hit rate. This optimization is realized using OSCAR multi-grain compiler as a preprocessor to output an optimized sequential FORTRAN code. A performance evaluation shows about 62% speed up compared with original program on 167MHz UltraSPARC.
著者
村上 和彰 岩下 茂信 宮嶋 浩志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.80, pp.155-160, 1996-08-27
被引用文献数
12

本稿は,メモリーマルチプロセッサー体型ASSP 「PPRAM」向けの標準通信規格『PPRAM?Link』Draft 0.0について,その概要を紹介している.PPRAM?LinkはPPRAMノードならびに(PRAMノードを1個以上含む)PPRAMチップを1対1単方向パラレル/シリアル・リンクで接続し,1Gバイト/秒(パラレル・リンク当り)あるいは1Gビット/秒(シリアル・リンク当り)以上の高速データ転送を可能とする.その論理階層の通信プロトコルは,基本的にはSCI (EEE Std 1596?199)に基づいてPPRAM向けに修正を施したもので,トランザクション.フロー制御,エラー検出,初期化の各プロトコルを含む.ただし,SCIと異なりハードウエア・レベルでキャッシュ・コヒーレンスを保証しないので,SCIのキャッシュ・コヒーレンス・プロトコル相当のプロトコルは含まない.PPRAM?Linkの標準化作業は,PPRAMコンソーシアム(仮称)の正式発足(996年10月の予定)を待って開始し,まずは1年間の予定で『PPRAM?Link Standard(仮称)』Draft 1.0を策定する計画である.This paper outlines an unapproved draft standard for PPRAM-Link. The PPRAM-Link provides a high-bandwidth interface needed for communicating among two or more PPRAM chips, or merged-memory/logic LSIs, by using a collection of fast point-to-point unidirectional links. Based on SCI (IEEE Std 1596-1992) signaling technology, the PPRAM-Link would be defined at 1 Gbyte/s (16-bit parallel) and 1 Gbit/s (serial). The PPRAM-Link supports the SCI-like transaction and flow-control protocols, although it does not provide any cache coherence protocols since PPRAM-based system is NCC-NUMA. The standardization will begin soon, and a proposed standard for PPRAM-Link will complete in a year.
著者
佐々木 敬泰 土江 竜雄 弘中 哲夫 児島 彰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.80, pp.215-220, 1996-08-27
被引用文献数
1

スーパスカラ・プロセッサでは,スーパスカラ度に見合う十分なデータ供給バンド幅を確保するため,ロード/ストア・ユニットの多重化を行う.しかし,同一サイクルに多重度分のロード/ストア命令を実行できなければ多重化したロード/ストア・ユニットに見合った性能向上は望めない.そこで,複数のロード/ストア命令に対応できるマルチポートのデータ・キャッシュの実現方式について検討する.To achieve enough data bandwidth balanced with superscalar degree, the load/store units must be multiplied. However if we don't have enough data bandwidth to process the load/store instructions provided by the multiple load/store unit every clock cycle, the multiplied load/store unit will be useless. This paper discuss the technique to implement multiport data cache that supplies enough bandwidth for multipled load/store requests.