著者
瀧和男 金田悠紀夫 前川禎男
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1978, no.18(1978-ARC-032), pp.1-10, 1978-09-13
著者
江島 和仁 吉松 則文 村上 和彰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.8, pp.19-24, 2006-01-24
参考文献数
8
被引用文献数
2

コンピュータのハードウェアやソフトウェアを実行時に最適化する「動的システム最適化技術」が注目されている.筆者らはSysteMorphという適応型動的システム最適化技術の概念を提案し,その応用システムの研究を行っている.本稿では,SysteMorphの一つの実装形態である,動的ホットパスアクセラレーションの性能を評価する.動的ホットパスアクセラレーションはプログラムの実行時(動的)に最適化対象箇所を検出し,専用のVLIWエンジンで加速実行(アクセラレーション)する技術である.シミュレーションによる評価を行った結果,従来のプロセッサ構成と比較して18%の性能向上を達成可能であることが分かった.Dynamic optimization is one of the most important approachs to improve compute efficiency. So far, we have proposed a feedback directed dynamic and adaptive hardware/software cooptimization technique, called "SysteMorph". In this paper, we evaluate performance of dynamic hotpath acceleration that is an implementation of SysteMorph. In the dynamic hotpath acceleration, we attempt to detect frequently executed parts of target application code at runtime. Then they are executed on a VLIW accelerator. By means of extracting Instructionlevel Parallelism, we can achieve high performance. From our evaluation, it is observed that we can achieve 18% performance gain.
著者
井田昌之 小方一郎 久門耕一 中島浩 日比野靖 丸山勉
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1990, no.78, pp.1-3, 1990-09-28

今回の討論会においては、討論に先だって、各パネラーの立場を明確にしていただいた。特に、「記号処理マシンは生き残れるか?」という間に対する回答を各パネラーに示していただき、それらを本討論会の基礎とすることにした。以下は、各パネラーから寄せられた回答をまとめたものである。この文章と同じ物は、討論会の10日ほど前に、あらかじめ各パネラーにお送りしてある。したがって、本討論会では相手の論点を踏まえた上での議論が展開されるであろう。また、自分の議論の弱点を補強したり相手の議論の欠点を突いたりして、さらに白熱した討論も期待できる。
著者
井上 正人 井上 倫夫 小林 康浩
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1989, no.99, pp.9-16, 1989-11-20

本報告では,全てのプロセッサが大容量共有メモリを,アクセス競合による待機時間を回避して利用するためのアーキテクチャとして,共有メモリの階層化およびメインメモリのマルチリード・ワンライトメモリ方式について述べる.具体的には,メインメモリのリードアクセス用バスとライトアクセス用バスを分離し,マルチリード・ワンライトメモリ方式を採用することによって,各プロセッサの稼働率を落とさずに接続できる台数を多くできること,そのときメモリアクセスに占めるリード動作の割合が0.7?0.8であるとき最も能率がよいこと,さらに共有メモリの階層化について,メインメモリのアクセスの割合を0.8くらいに保てば,アクセス競合による性能低下を起こさずに稼働できるプロセッサの台数を最大にできることなどを示した.This paper proposes a memory architecture which is necessary for scaling up a tightly coupled multiple microprocessor system and is useful for implementing highly parallel processing. The proposal consists of (1) introduction of a concept of hierarchy into memory organization, (2) furnishing of shared memories with two ports, (3) equipment of two kind of shared memories; system memories for storaging prime data, and main memories for offering common working areas, (4) adoption of multiple access for read operations and once access for write operations, (5) construction of exclusive read buses and exclusive write buses, (6) use of two-way interleaved main memories, (7) provision of the omega network connecting to processor units through exclusive write buses. Usefulness of the above measures is discussed with theoretical investigations.
著者
谷村 勇輔 田中 良夫 横川 三津夫 関口 智嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.20, pp.115-120, 2006-02-27
参考文献数
11

実大三次元振動実験により生成される貴重,かつ膨大なデータを格納するためのデータリポジトリシステム「EDgrid Central」を設計した.EDgrid Central はバックエンドに大容量のストレージと振動実験データの格納用に考案されたデータモデルを実装し,フロントエンドではメタデータによる実験データの検索やデータファイルの一括ダウンロード機能をWeb インタフェースとして提供する.これは米国のNEES プロジェクトで開発されたNEEScentral ソフトウェアをもとに,振動実験のデータを扱うユーザの意見を踏まえて必要な機能の追加・拡張,EDgrid スタイルのデザインへの置き換えを行ったものである.EDgrid Central を運用することで,振動実験データを格納するための半恒久的なリポジトリを確保するとともに,地震工学の研究者がお互いの実験や解析結果を日常的に交換,共有利用する環境を提供することができる.A data repository system, that is called EDgrid Central, is designed for storing huge amount of experiment data by using a 3-D full-scale earthquake testing facility. The EDgrid Central prepares large storage capacity and implements a data modeling for the shake test in the backend. The frontend is a portal for users to retrieve the stored data by meta-data search and bulk download. This system uses the NEEScentral developed by the NEES project in the United States by enhancing search and download functionalities, according to the EDgrid users' requirements. The EDgrid Central allows facility sites to have a permanent repository of the shaking table experiment and it also enables civil engineering researchers to share their data and reports in their daily activities.
著者
秋田 直己 佐々木 敬泰 大野 和彦 近藤 利夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.79, pp.109-114, 2007-08-02
参考文献数
8
被引用文献数
1

近年,モバイルコンピューティングからハイパフォーマンスコンピューティングに至るまで,幅広い分野において低消費エネルギーと高性能の両立が要求されており,様々な手法が研究されている.現在行われている低消費エネルギー化の手法の一つとしてDVSがある.しかし,この手法は将来的に消費エネルギー削減効率の低下が予想される.なぜなら近年CMOSの電源電圧は低下の一途をたどり,電源電圧の下げ幅は小さくなっているからである.そこで我々は,電源電圧に依存しない低消費エネルギー手法として可変パイプライン段数アーキテクチャ(VSP)を提案している.VSPとはパイプライン段数を動的に変化させ,同時にグリッチの緩和を行うことで,高性能と低消費エネルギーの両立を目指す手法である.VSPは高性能と低消費電力の両立を実現できるが,VSPの要素技術であるLDS-Cellを導入することでパイプラインレジスタの遅延増大を招くという問題があった.LDS-cellとはパイプラインステージ間に存在するD-FFの動作を動的にD-ラッチへ変化させることでパイプライン統合と同時にグリッチの緩和を行うものである.そこで本論文ではVSP手法を実現する上で重要なセルであるLDS-cellの改良及び評価を行った.提案手法を詳細設計し,評価したところ,従来のLDS-cell と比較して15%程度高速化できた.Recently, in the field of not only mobile computing but also high performance computing, the achivement of low energy computing and high performance computing is required simul taneously. The DVS (Dynamic Voltage Scaling) is one of the current major methodoligics for low power devices. However by DVS, the lower the chip voltage becomes in the future, the less energy saving we get by DVS. So, in order to reduce the power consumption for lower voltage devices, we propose VSP (Variable Stages Pipeline) processor with the LDS-cell that unifies pipeline stages dynamically and also decreases power consumption caused by glitch propagations on low energy mode. But, because the delay of the LDS-cell is larger than a D-FF, the maximum clock rate for VSP must be lower than the original processor. So this paper improves the LDS-cell to reduce latency and power consumption. According to evaluation results, the improved LDS-cell can achieve 15% faster than the conventional LDS-cell.
著者
中野 啓史 石坂 一久 小幡 元樹 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.76, pp.67-72, 2001-07-25
参考文献数
13
被引用文献数
3

近年のプロセッサの動作速度とメモリアクセスの速度差の拡大により,データローカリティを利用したキャッシュ最適化がますます重要となっている。また,マルチプロセッサシステム上での並列処理においては,従来のループ並列化のみの並列処理は限界を向かえつつある。そのため更なる性能向上を得るには粗粒度タスク並列処理の併用等マルチグレイン並列化が重要となっている。本稿では,Fortranプログラムをループ・サブルーチン・基本ブロックの3種類の粗粒度タスクに分割し,粗粒度タスク間の制御依存・データ依存を解析して並列性を抽出する粗粒度タスク並列処理において,粗粒度タスク間のデータ共有量を考慮してキャッシュ最適化を行う粗粒度タスクスタティックスケジューリング手法について述べる。本手法をOSCAR Fortranマルチグレイン並列化コンパイラに実装してSunUltra80(4プロセッサSMP)上で評価を行った結果,SPEC 95fpのswim,tomcatvにおいて,本手法により,Sun Forte HPC 6 update 1 の自動並列化に対してそれぞれ4.56倍,2.37倍の速度向上が得られ,本手法の有効性が確かめられた。Effective use of cache memory based on data locality is getting more important with increasing gap between the processor speed and memory access speed. As to parallel processing on multiprocessor systems, it seems to be difficult to achieve large performance improvement only with the conventional loop iteration level parallelism. This paper proposes a coarse grain task static scheduling scheme considering cache optimization. The proposed scheme is based on the macro data flow parallel processing that uses coarse grain task parallelism among tasks such as loop blocks, subroutines and basic blocks. It is implemented on OSCAR Fortran multigrain parallelizing compiler and evaluated on Sun Ultra80 four-processor SMP machine, using swim and tomcatv from the SPEC fp 95 benchmark suite. As the results, the proposed scheme gives us 4.56 times speedup for swim and 2.37 times for tomcatv respectively against the Sun Forte HPC 6 loop parallelizing compiler on 4 processors.
著者
河場 基行 安里 彰 斎藤 淳 加納 賢 深谷 俊晴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.74, pp.133-138, 2000-08-03
参考文献数
7

マルチスレッドプロセッサのマイクロアーキテクチャの検討を行なうため,TaMTaMシミュレータを作成した.このシミュレータはトレースドリブン方式かつ非サイクルベース方式の高速なシミュレーションを特長とする.TaMTaMシミュレータを用いて,命令フェッチ時のスレッド選択方式(icount方式,ラウンドロビン方式,キャッシュミス方式),命令フェッチ幅分割方式に関して,FFTプログラムを対象に比較検討を行なった.icount方式とラウンドロビン方式の性能が良いが,これら2方式の性能差が3.6%と僅かであること,また命令フェッチ幅分割は,2つのスレッドより同数フェッチする方式で十分性能が得られることがわかった.We have developed a trace-driven simulator for multithreaded processors, called TaMTaM, in order to investigate the behavior of multi-threading applications. Because the TaMTaM is not a kind of cycle-based simulator, its feature allows us to evaluate faster than cycle-based simulators. Through the TaMTaM simulation we studied the strategy of fetching instructions and partitioning fetch bandwidth. As for the FFT program derived from the SPASH2 suite, the icount method can improve the CPU throughput(IPC) the best among several strategies, while the round-robin method is comparable with the icount method. Also we have found the 50%-50% fetch bandwidth partitioning, which fetches the same number of instructions from 2 threads, achieves enough throughput gain.
著者
石川 明雄 山西正一郎 朝長 宜央 小原 啓義
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1993, no.91, pp.25-32, 1993-10-21

本論文では,内部構成モジュールの拡張が容易なプロセッサProteusのアーキテクチャに関する研究について述べる.Proteusは,機能単位であるユニットとブロックを内部バスに接続することにより構成される.ブロックはそれ自体が一つのプロセッサとして動作可能な単位であり,各々に対して与えられるマイクロ命令により制御される.また,ユニットはブロックに対して接続され,その各々はALUやレジスタファイルなどのプリミティブな単位である.ユニットはそれが接続されているブロックに与えられたマイクロ命令により制御される.Proteusは,ユニットの追加により特殊なハードウェア機能の付加,ブロックの追加により並列プロセッサとしての動作が可能である.This paper focuses on the processor architecture of Proteus, which is easy to extend it's internal modules. Internally, Proteus is structured in two types of modules that are Units and Blocks connected to Proteus bus. Each Block works as a processor that is controled with a micro-instruction set provided from the exterior. And each Unit is a primitive modules attached to a Block, for example, Arithmetic Logic Unit and Register File. Units can be controled with a bit field in the micro-instruction set given to a Block. Proteus architecture can add new specific functions by adding new Units, and can work parallel pocessor by adding new Blocks.
著者
小守 継夫 若林 正樹 天野 英晴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.21, pp.1-6, 1999-03-04
参考文献数
4
被引用文献数
1

慶應義塾大学では並列計算機の性能評価を目的に,並列計算機シミュレータライブラリISISと相互結合網シミュレータライブラリSPIDERを開発している.本研究では,これらのライブラリを利用して分散共有メモリ型並列計算機モデルであるNUMAのシミュレーションを行うため,新たな機能ブロックとしてネットワークインタフェースを開発してライブラリの拡張を行った.本稿では,ライブラリの拡張方法と,実装した幾つかのシミュレータ上でSPLASH2プログラム集を実行して性能評価を行った結果を示す.本研究により,様々な相互結合網について命令レベルシミュレーションによる性能評価を可能にした.A instruction level simulation library "ISIS" which is developed by Keio University supports to simulate a bus connected multiprocessor. On the other hand, "SPIDER" which is also developed by us supports to simulate an interconnection networks. Here, these two simulation libraries are combined to simulate a large scale multiprocesor connected with an interconnection network. We also implemented several distributed shared memory mulitprocessor simulator based on the new library. In this paper, the new extension method of library is described, and performance evaluation of the implemented simulator is shown.
著者
福地 健太郎 松岡 聡 堀 敦史 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.18, pp.43-48, 1998-03-05
参考文献数
10

Implicit co?schedulingはBerkeley NOWプロジェクトで提案された、大域スケジューラーを持たず、オーバーヘッドが少い・実装が容易である等の利点を持つ並列ジョブスケジューリング技法である。これまでの性能評価では実行時間の対ギャングスケジューリング比にして0.6?1.6程度の性能が出るとされているが、実用的なアプリケーションでの性能評価はなされていない。本研究では、大規模高性能クラスター上で、NAS並列ベンチマークを用いる事で、implicit co?schedulingの実践的な性能を測定した。その結果、FT,CGにおいて実行時間の対ギャングスケジューリング比にして最大2.3倍という結果を得ており、Berkeleyの評価が再現しなかった。これは、ネットワークの混雑等が原因と予測され、現在追試中である。Implicit co-scheduling is a parallel job scheduling methodology proposed by the UC Berkeley NOW project, and embodies favorable characterlistics such as lack of global schedulers, low overhead, and easy implementation. Previous literatures have claimed that overhead versus traditional gang schedulers was about a factor or 0.6 to 1.6; however, evaluations were not performed using real-life workloads. We have implemented an implicit co-scheduler on a large-scale, high-performance cluster, and used NAS parallel benchmarks to measure effective performance. There, we found that for FT and CG, the overhead versus gang scheduling can be as high as factor of 2.3, negating the Berkeley results. We conjecture that this is due to excessive network traffic, but are still in the process of perforoming additional experiments.
著者
福井 俊之 鈴木 茂夫 中村 秀一 下山 朋彦 数藤 義明 濱口 一正 柴山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.80, pp.143-148, 1996-08-27
参考文献数
4
被引用文献数
3

本稿では,ワークステーションクラスタの分散共有メモリ機構を,光波長多重回線を用いてハードウェアでサポートした"光バスクラスタ"の第一次試作機"Euphoria"の仕様,及びEuphoriaを実際に稼動させて測定した基本性能の評価に関して述べる.Euphoriaはハードウェア・バスプロトコルを光回線により他ノードまで通信し,cache coherenceを保った分散共有メモリを実現している点でユニークである.現在のEuphoriaでは光バスアービタにおける回線設定及びキャッシュの一貫性保持動作をアービタ内でソフトウェアにより行っているが,このボトルネックを解消できた場合,ノード間距離100mのシステムでもレスポンスタイムが5μs以内で,自他ノードのメモリを区別なく自由に参照できるシステムの可能性を示すことができた.In this paper, we describe hardware design considerations and a preliminary performance evaluation of an Optical Bus Computer Cluster (OBCC). The OBCC is categorized in a class of workstation cluster having hardware-supported distributed shared memory. Furthermore, the OBCC employs optical wavelength-division multiplexing (WDM) technology to connect nodes (workstations) with high bandwidth. Euphoria consists of several nodes (workstations) and an arbiter which arbitrates optical bus requests and maintains cache coherency among nodes. Current implementation of the arbiter functions is done by software for experimentation purpose. By examining the basic analytic performance evaluation we conclude that a distributed shared memory system with one-hundred-meter nodes distance is possible with five microsecond range response times if we eliminate the software overhead associated with the current arbiter implementation.
著者
長谷川 誠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.98, pp.9-16, 1995-10-19
参考文献数
10
被引用文献数
3

機能ユニット間の接続形態を変更することによってではなく,パイプライン中の縦続接続されている各演算ステージの演算機能そのものを実時間で動的に再定義することによって,実効的に可変構造としたパイプライン計算機について示す.このような方式を採用することにより,パイプライン計算機の本質的弱点と考えられてきた通過遅延時間を事実上無視することが可能となる.動画や音声などの連続ストリーム型のデータの柔軟な処理に適する.ウエハー・スケール・インテグレーションを効果的に利用して実現することが期待できる.On-the-fly function redefinition of pipeline segments makes it possible to novel reconfigurable machine architecture without reconfiguring the interconnections. We can avoid the startup latency of pipeline stages. It's especially suitable for processing the stream style data, ex. sound, image etc. The wafer scale integration is the another challengeable aspect of this architecture.
著者
柳井 啓司 田中 哲朗 武市 正人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.13, pp.55-60, 1996-01-26
参考文献数
8

関数型言語向きアーキテクチャを持つプロセッサを,1万ゲート相当のFPGAを用いて実現した.本プロセッサは通常命令を実行するノーマルモードと関数型言語実行のためのリダクションモードの2種類の実行モードを持つ.リダクションモードでの実行を使用頻度の高い5つコンビネータにとどめ,他のコンビネータをノーマルモードで実行するという方針で設計をした結果,少量のハードウェアの追加で製作でき,ノーマルモードのみの実行と比較して5倍程度の速度の向上が確認された.A processor for functional languages was implemented on a Field Programmable Gate Array (FPGA) with 10 thousand gates. This processor has two execution modes, "normal mode" for execution of normal instructions and "reduction mode" for reduction of combinators. The design of this processor is to execute five frequently used combinators in reduction mode and others in normal mode. Combination of normal mode and reduction mode enables the processor to execute functional programs about five times as fast as that only with normal mode.
著者
柳井 啓司 田中 哲朗 武市 正人
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1996, no.13(1995-ARC-116), pp.55-60, 1996-01-26

関数型言語向きアーキテクチャを持つプロセッサを,1万ゲート相当のFPGAを用いて実現した.本プロセッサは通常命令を実行するノーマルモードと関数型言語実行のためのリダクションモードの2種類の実行モードを持つ.リダクションモードでの実行を使用頻度の高い5つコンビネータにとどめ,他のコンビネータをノーマルモードで実行するという方針で設計をした結果,少量のハードウェアの追加で製作でき,ノーマルモードのみの実行と比較して5倍程度の速度の向上が確認された.
著者
横田 隆史 大津 金光 古川 文人 馬場 敬信
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.120, pp.81-86, 2005-11-30
参考文献数
5
被引用文献数
4

予測器は一般に対象の過去の挙動をもとにして,可能性のある選択肢のなかから最尤のものを次の状態として「予測」する任を担う.予測器があらかじめ与えられる情報なしに働くならば,予測対象とする系の性質・挙動が予測器の性能となって現れてくるはずである.我々は,系の挙動に見られる偏りやランダムさに着目し,エントロピーを測度として定量化することで,予測器の性能を表現することを試みた.系を2値のマルコフ情報源と考え,その情報源エントロピーを,予測に関して系が持つ情報量と考えた.また,予測器が内部にテーブル構造を持つとき,テーブルエントリごとの使用の多寡からもエントロピーを定義し検討対象とした.予測器の方式によってエントロピー値と予測成功率の間に明らかな相関性が認められる.Predictors are responsible for predicting the next state by means of past events. When a predictor works without any knowledge on the system, its prediction performance should be influenced by statistical characteristics of the system at some level. We focus our viewpoint on randomness in the system behavior and introduce an entropy concept so as to quantitatively measure the system behavior, i.e., randomness. We define information source entropy and reference entropy. These entropy values reveal prediction performance in some prediction methods.
著者
岸上 秀哉 増渕 美生 内海 透 宮森 高 宮田 操
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1988, no.4(1987-ARC-069), pp.65-72, 1988-01-21

TX1はTRONCHIP32の仕様に基づく、東芝の32ビットマイクロプロセッサであり、組込み制御を主要な用途としている。TX1の目標性能は5MIPS以上でありこの性能を得るためにTX1では内部を4つのブロックに分割し、それらができるだけ非同期に独自の処理を進めるパイプライン方式となっているのが特長である。TX1の内部構造を評価するために、TX1の機能シミュレータ上で各種ベンチマークプログラムを実行した。本報告ではTX1の内部構造の特長について述べ、シミュレーションによる評価結果について検討する。
著者
長名 保範 吉見 真聡 天野 英晴
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2005, no.120(2005-ARC-165), pp.87-92, 2005-11-30

細胞内の各種物質の濃度を高精度かつ高速に測定する実験技術の進歩に伴い、定量的データに基づく数理的な生化学システムのモデルを用いた研究が盛んになっている。現在は多細胞系のシミュレーションは生物学的にも計算機の能力的にも困難とされているが、生物学的な困難さは今後10年程度の間に解決されるものと考えられる。本稿では、現在開発中の、FPGAを用いた生化学シミュレータをベースとした多細胞系、あるいは神経回路網をターゲットとしたシミュレータの可能性についての検討結果について述べる。
著者
豊島隆志 山村 周史 青木 孝 木村 康則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.79, pp.181-186, 2007-08-02

コンピュータシステムの研究,開発において,シミュレータの果たす役割は年々重要となっている.その用途はプロセッサの性能推定から,アプリケーションの分析まで多岐にわたり,様々な要求に応え得る柔軟な設計が必要である.一方で,シミュレーションの対象となるハードウェア,あるいはシミュレータ上で評価するベンチマークは年々肥大化する傾向にあり,必要とされる精度で対象物の全体をシミュレートすることが困難となっている.そのため,高速で精度の高いシミュレーション手法についての研究が注目されている.柔軟性や拡張性,精度と速度の両立など様々な要求に応えるため,我々はシミュレータAiceを設計した.Aiceは用途に合わせて機能を追加,変更することが容易であり,またアプリケーションのシンボル情報を扱うことにより,命令レベルの分析のみならず,関数レベルの分析が可能である.本稿ではAiceを用いた評価の例として,性能情報の時系列表示を利用したアプリケーションの実行フェーズ分析と実行プロファイルを利用した関数ごとの実行コストの評価について示し,Aiceの有効性について議論する.A research and development of modern computer system requires a simulator for various purpose. Some use simulators for performance estimation of new processor architecture, and some apply them to analyze applications. To meet these demands, simulators should be designed as flexible as possible. In addition, target hardware or benchmarks are becoming larger and larger. As a result, the whole investigation using an accurate simulator becomes unrealistic. Many researchers try to establish a simulation framework to realize speed and accuracy simultaneously. We design and develop the simulator called Aice to meet these various requests namely adaptability, expansibility, speediness et al. New features are readily added into Aice, and you can modify the structure of Aice easily. Furthermore, you can achieve application analysis not only on instruction level, but also on function level as it handles symbol information included in application binaries. In this paper, we describe two evaluations with Aice. One is am execution phase analysis in time series. The other is a function cost analysis using execution profile. We also discuss the advantage of Aice noticed in these evaluations.
著者
鈴来響太郎 花田 彰 天野 英晴 武藤佳恭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1993, no.111, pp.9-16, 1993-12-16

現在までに提案されている並列自動配線アルゴリズムのほとんどは、従来からある迷路法、線分探索法を並列化したものである。このため、細粒度の並列化と高いプロセッサ利用率を同時に実現できず、並列計算機に実装した場合に高い台数効果を得ることが難しい。本研究では、この条件を満たせるようにニューラルネットワークに基づく並列自動配線アルゴリズムを提案し、シーケンシャルマシン上に実装してアルゴリズムの質の評価を行なう。また、並列計算機への実装の方法についても検討する。Since most of proposed parallel routing algorithms are parallelized algorithms of maze running or line search which were developed for sequential machines, efficient parallel processing with high processor utilization is difficult. Here, a parallel routing algorithm based on neural networks which can achieve both high degree of parallelism and utilization ratio is proposed, and the quality of the solution is presented on a sequential machine. The implementation on a parallel machine is also discussed.