著者
平井 遥 入江 英嗣 五島 正裕 坂井 修一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.88, pp.43-48, 2006-07-31
被引用文献数
1

スーパスカラ・プロセッサの命令パイプラインにおいて、命令ウインドウより上流をフロントエンドと呼び、命令ウインドウおよびその下流をバックエンドと呼ぶ。従来のスーパスカラ・プロセッサでは演算器はバックエンドに配置され、命令の実行はバックエンドのみで行われる。これに対して我々はフロントエンド実行という手法を提案している。フロントエンド実行とはバックエンドに加えてフロントエンドにも演算器を配置し、実行可能な命令をフロントエンドでも実行することである。フロントエンド実行には従来のプロセッサに比べクリティカル・パス上の命令の実行間隔を狭める効果がある。本稿ではフロントエンド実行の考え方を押し進め、改良手法としてツインテール・アーキテクチャと呼ぶ手法を提案する。ツインテール・アーキテクチャはフロントエンド実行ステージを通常のパイプラインから独立させたものであり、これによってフロントエンド実行ステージによるパイプライン段数の増加はなくなる。この手法はフロントエンド実行において難点であった部分を改善してさらなる性能向上を図ることを目的とした手法である。The front end (or back end) of the pipeline in a superscalar processor refers to the pipeline before (or after) the instruction window. Traditionally, physical locations of ALUs, as well as instruction execution belong to the backend. We have proposed front end execution (FEE). In FEE, ALU allocation and instruction execution also take place in the front end. By early executing instructions with ready source operands, execution time of critical instructions can be reduced. This work proposes an enhanced FEE, called twintail architecture. In twintail architecture, the stages responsible for FEE are separated from the main pipeline. By which, the overheads previously caused by additional FEE stages can be removed.
著者
杉田 秀 深山 辰徳 蛭田 智則 當仲寛哲 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.17, pp.73-78, 2007-03-01
参考文献数
7

本研究では,マルチコア・SMT(Simultaneous Multi-Threading) プロセッサ上でのシェルスクリプト実行の有効性を示すことを目的とする.近年マルチコアプロセッサおよびSMTの技術が注目されている.しかし,並列性を考慮していないプログラムを通常のコンパイラでコンパイルしても,マルチコアプロセッサやマルチスレッドを有効活用することはできない.通常,これらの技術の恩恵を受けるためには,並列化プログラミングが必要であり,自動並列化の技術も数多く研究されている.本稿では,シェルスクリプト自身が持つ並列性に着目し,マルチコアプロセッサ・SMT環境において,シェルスクリプトの高速化を実現する手法,シェルスクリプトの自動並列化プログラムを提案する.本提案手法を用いて,マルチコアプロセッサ・SMTマシン上でシェルスクリプトの実行を行った結果,手法適用前に比べて1.4~1.8倍の速度向上を得ることができた.The purpose of this study is to show the effectiveness of shell script execution on multi-core and/or SMT (Simultaneous Multi-Threading) processors. Recently, multi-core processor and SMT technique have become popular even at home and in business. However, using programs or compilers without consideration of parallelism does not give us the benefits of multi-core and multi-thread. Programmers have to do parallel programming to receive the benefits. Therefore, automatic parallelizing technique has been studied actively. This paper proposes automatic parallelizing scheme for shell script programs on multi-core and/or SMT processors. As a result of the experiment, we have confirmed that the speed-up of automatic parallelized shell script program is 1.4 to 1.8 times in comparison with the original shell script program.
著者
堀尾 一生 亘理 靖展 塩谷 亮太 五島 正裕 坂井 修一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.75, pp.7-12, 2008-07-29

本論文はツインテール・アーキテクチャの改良案を提案するものである.ツインテール・アーキテクチャには発行幅や命令ウィンドウ・サイズを実質的に増加させる効果があり,ウェイ数の大きなスーパスカラ・プロセッサの実現に貢献する技術である.本論文が新たに提案するハーフパンプ FU アレイは,ツインテール・アーキテクチャの消費電力を削減するための機構である.ハーフパンプ FU アレイは,ツインテール・アーキテクチャの命令のスループットを保ちながらも,消費電力を抑えることを可能にする.シミュレーションによる評価では,ハーフパンプ FU アレイを実装したツインテール・アーキテクチャは通常のツインテール・アーキテクチャと比べ,2.4% の性能低下にとどまり,ベースモデルのスーパスカラ・プロセッサに対して,平均で 10.7% の性能向上が得られた.This paper proposes a new inplementation of Twintail Architecture. Twintail Architecture is a technique which qives effect similar to increasing issue width and instruction window size, but at low hardware cost. It is expected to contribute to a practical implementation of ultra-wide super scalar processor. This paper's proposal, Half-pumped FU Array, reduces power consumption of Twintail Architecture at minimal performance cost. Our evaluation showed that Twintail Architecture with Half-pumped FU Array improves IPC of base model super scalar processor by 10.7%, a 2.4% performance loss from conventional Twintail Architecture.
著者
岡本 一晃 松岡 浩司 廣野 英雄 横田 隆史 坂井 修一
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1995, no.80(1995-ARC-113), pp.201-208, 1995-08-23

我々は、スレッド制御を自然に行える実行モデルとして、コンティニュエーション駆動実行モデルを考案し、それに基づいてマルチスレッド処理を最適化する並列処理アーキテクチャRICA(educed Interprocessor?Communication Architectur)を提案している。現在開発を進めているRWC?1のプロセッサは、RICAに基づくマルチスレッド処理機構を有しており、通信や同期のオーバヘッドを削減することで大域的な並列処理性能の向上を図っている。本稿ではRWC?1プロセッサのマルチスレッド処理機構について述べ、RWC?1におけるスレッドレベル並列処理の基本動作を示す。
著者
平山 弘 加藤 一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.22, pp.173-178, 2002-03-07

べき級数の四則演算や関数計算は、C++言語を使うと容易に定義できる。四則演算や組込関数や条件文を使って定義される関数はべき級数に展開できる。これを利用すると常微分方程式の解をべき級数展開することができる。解は任意次数まで計算できるので、Runge-Kutta に代わる任意次数の公式として使うことができる。べき級数を使えば、誤差評価も容易に行え、許容誤差内の適切なステップサイズを容易に求められる。さらに、べき級数を有理関数展開(Pade展開)に変換し、それを利用すると任意次数でA安定な常微分方程式を解く数値計算法を与える。これらの方法を使えば、いろいろな関数およびその逆関数のべき級数を容易に得られる。この級数を使うと、任意次数の非線形方程式の解法を得る。The arithmetic operations and functions of power series can be defined by C++ language. The functions which consist of arithmetic operations, pre-defined functions and conditional statements can be expanded in power series. Using this, the solution of an ordinary differential equation can be expanded in power series. The solution can be expanded up to arbitrary order, so the calculation formula of arbitrary order can be used instead of Runge-Kutta formula. Power series can be used for the evaluations of the errors and the optimal step size within given error allowance easily. In addition, we can transform power series into Pade series, which give arbitrary order, high precision and A-stable formula for solving ordinary differential equation numerically. The power series with many functions and its inverse functions can be easily gotten when using this way. It gives arbitrary order formula for solving non-linearequations numerically.
著者
対木 潤 田中 清史 松本 尚 平木 敬
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1995, no.80, pp.25-32, 1995-08-23
被引用文献数
4

既存の逐次計算機を置き換えるものとしての汎用超並列計算機への要求から、将来の汎用並列計算機にはスケーラビリティと汎用環境での使用を支援するための機構が求められる。本研究では、将来の汎用並列計算機の柔軟かつ強力なプロトタイプとしてハードウェアサポートされた同期機構を持つスケーラブルな並列計算機:お茶の水5号の設計、および実装を行なっている。本稿ではお茶の水5号の分散共有メモリ、プロセッサベース同期機構、メモリベース同期機構について述べる。Mechanisms for supporting efficient use under general environment and Scalability are necessary for future general purpose parallel processing systems, so that they can be exchangeable for existing sequential processing systems. We designed OCHANOMIZ 5: scalable parallel processing system with hardware-supported synchronization mechanisms, as a flexible and powerful prototype of future general purpose parallel processing systems. In this paper, we describe distributed shared memory, processor-based synchronization mechanisms and memory-based synchronization mechanisms being implemented on OCHANOMIZ 5.
著者
鈴木孝則
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1983, no.44(1983-ARC-029), pp.1-10, 1983-11-28

近年のコンピュータの発展はめざましく、とりわけ、パーソナルンピュータの性能は日毎に大きく向上している。漢字ディスプレイ、漢字プリンタなど日本語を扱える環境が整い、日本語処理が声高に叫ばれている。このような状況から生れた日本語ワープロの利用は、この一年をとっても急速な伸びを示している。この日本語ワープロは、パソコンがうまく利用されている例ともいえる。それでは、自分のさせたいプログラムを書くことは、どうであろうか。ワープロが使えるからといって、一般の人が簡単にプログラム作成できるものではない。たとえ、パソコンで最も普及している"BASIC"言語を使っても、むずかしいものである。とりもなおさず、"BASIC"を含めて、これまでのプログラミング言語が英文表記であったため、プログラムの習得を一般的なものとなしえてはいなかった。日常使いなれている言葉を利用したものつまり、日本語でプログラムできればよりコンピュータ利用の層が増すと考えられる。松下技研(株)では、この日本語でプログラミングできる「日本語AFL」(注1)を、概に開発済の対話型高級言語「AFL」(注2)を用いて開発に成功した。国際データ機器では、これを採用、改良して、”ワープロ感覚でプログラミングできる!”日本語プログラミング言語「和漢」(注3)として商品化した。
著者
瀬尾 和男 横田 隆史
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1988, no.4(1987-ARC-048), pp.81-88, 1988-01-21

我々の研究所において開発を進めているRISC方弐μプロセッサ"Pegasus"は、カスタムVLSI技術に基づくProlog処理の高速化を目指したものであり、Prologの実行形態に即したスタック操作、タグ操作、Backtrackに伴う状態の退避・復旧等を効率良く実行できる命令セットを備えている。特に、Backtrackに伴う状態の退避・復旧に関しては、互いにコピー可能なレジスタ対によって構成されるレジスタ・ファイルをカスタムVLSI設計によって実現し、高速化を図っている。本報告では、Pegasusアーキテクチャを検証する目的で行ったプロトタイプ・チップの開発について述べる。このチップは、プロトタイプ開発に要する時間の短縮化を目標にフルカスタム/スタンダード・セル方式によって設計されている。テスト・ボードに組み込んだ試験の結果、マシンサイクル200nsで動作可能であり、Append:239KLIPS、Quicksort:149KLIPSの推論性能を達成している。
著者
飯塚 裕 木下 康幸 武内 春夫
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1987, no.78, pp.113-120, 1987-11-12

Smalltalk-80を高速に実行するために、Smalltalk-80専用マシンHobbesを開発した。本論文では、Hobbesのハードウェア構成、バーチャルマシンの実現方法、特にsend、returnバイトコード実行時の処理について述べる。ベンチマークテストを行なった所、パーフォーマンス・レーティング197を得た。We Developed Smalltalk-80 machine Hobbes that accelerates execution speed. This paper describes its hardware architecture, implementation of Virtual Machine and execution of send and return bytecodes. This paper also describes result of benchmark tests. Its performance rating is 197.
著者
安倍 正人 城戸 健一
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1991, no.64(1991-ARC-089), pp.75-80, 1991-07-19

現状のVLIW型の計算機の問題として、入力データのポート数が1つしか無いことがあげられる。すなわち、たとえ演算器が複数あってもほとんどの計算において実際に動作する演算器は1つだけということになり、パフォーマンスが良くない。そこで、我々は複数のデータキャッシュをサポートするVLIW型計算機KIDOCHを開発中である。具体的には2つのデータキャッシュをサポートし、さらに5ポートレジスタファイルを用いてキャッシュ間のコヒーレンスも保つようにしている。また、この5ポートレジスタファイルはMMUのTLBおよび汎用のレジスタファイルとしても効果的に用いられている。さらに、これらの機能を有効に使うためのCコンパイラについても特にループ展開について詳しく述べている。
著者
傳田 紀代美 山口 あづさ 竹重 和明
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.1997, no.22(1996-ARC-123), pp.1-6, 1997-03-06

VPP300/500においてBLAS (asic Linear Algebra Subprogram)のベクトル化を、富士通HPC本部との共同研究/開発として行った。今回の仕事は、並列ベクトル化LAPACKをVPP300へ実装するための第一歩として位置づけられ、アーキテクチャに最適化したベクトル化BLASを作成して、BLASを参照している数値計算ライブラリLAPACK (inear Algebra PACKag)の性能向上を目指すことを目的としている。アーキテクチャの特性を考慮し、ベクトルレジスタを最も有効に利用するようにソースを改良した。また行列サイズに応じて最も速いアルゴリズムを選択させることで、広い範囲で高性能が得られるようになった。
著者
西田 健次 田中 敏雄 新田 徹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.76, pp.161-166, 1997-08-20
参考文献数
4

人間の記憶は、次々と新しい事例を記憶し、それを失うことなく類似の事例をまとめて概念化していくことができる。そして、頻繁に利用される記憶は想起しやすくなるなどの優れた機能を持っている。また、人間の記憶には、嬉しかった事悲しかった事など、何らかの感情を伴った事例は記憶されやすいという特徴がある。本稿では、感情の記憶における働きに着目し、感情を記憶に対する制御信号と捉えた感情記憶システムを提案する。感情記憶システムでは、感情の活性化により記憶事例の獲得や記憶の概念化が実現でき、学習により頻繁にアクセスされる記憶は想起しやすくなるなど、人間の記憶機能をうまく再現できる。In this paper we propose a memory system which employs emotion as a control signal for memory. This Emotional Memory system can learn concepts without losing memory instances, and frequently accessed memories become easily associated.
著者
山村 周史 青木 孝 安藤寿茂
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2007, no.79(2007-ARC-174), pp.61-66, 2007-08-01

我々は,ペタスケールシステム向けのプロセッサアーキテクチャの検討を行っている.ペタスケール規模の科学技術計算アプリケーションを高速に実行するためには,大量の浮動小数点演算を高効率で処理できなければならない.これを実現するために,我々は,既存のスカラプロセッサに対して, SIMD 演算ユニットを拡張装備するアーキテクチャを提案する. HPL および PHASE の主要計算ルーチンを対象として,シミュレーションにより本アーキテクチャの性能評価を行い,その有効性について述べる.
著者
石川 隼輔 山名 早人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.22, pp.121-126, 2002-03-07

本稿では,ループに対して投機的実行を効果的に適用する手法について提案し,SPECcpu95 ベンチマークのcompress プログラムを用いて有効性を検証した.一般的に,ループはプログラムの実行時間の大部分を占めていることから,ループ並列化によるプログラム速度向上率は高い。しかし、従来の並列化手法では、データ依存が静的に解析できない場合、データ依存が存在すると仮定し解析を進める。このため、たとえば,実際には一万回に一回しかループ運搬依存(LCD)が発生しないようなループであっても並列化することができない.しかし,このようなループに対して投機的実行を適用することにより,プログラムを高速に実行することが可能となる.本稿では、従来考慮されてこなかった投機的実行失敗時の復帰処理に必要なオーバーヘッドをパラメータとして取り入れることにより,投機的実行の効果が期待できる部分のみを選択的に投機的実行する方式を提案する。提案手法は、復帰処理オーバーヘッドの他、LCD が実行時にどの程度の確立で存在するのかを表すLCD 存在率と、投機的実行開始位置とをパラメータとし,選択的な投機的実行を実現する。本手法をcompress プログラムに適用した結果,現状では3倍の速度低下がみられた。このため、速度低下の原因を解析し,その原因を解決するための新たな投機的実行適用手法も提案する.In this paper, we propose an efficient speculative execution scheme for loops, and have confirmed the usefullness of the scheme using the compress program from SPECcup95 benchmark. Generally, since the execution time of loops holds the large portion of the total execution time, the loop parallelization scheme improves the program performance, dramatically. However, when the data dependence cannnot be analyzed statically, the conventional parallelization scheme assumes that the data dependence exists. For this reason, such a loop cannot be parallelized even if the loop carried dependence(LCD) occurs only in 10,000 times, dynamically. However, the speculative execution scheme has been known to speedup such a loop. In this paper, we propose the scheme to apply the speculative execution alternatively only to the portion expected to be speeduped effectively, using the overhead parameter required for the book-keeping process when the speculation fails. Such overhead has not been considered on conventional speculative execution schemes. The proposed scheme enables the alternative speculative exection using the overhead parameter for book-keeping, the LCD existence probability, and the timing of the speculative execution initiation. As a results, in the present stage, the execution speed is fell down to one third. To solve this problem, we also propose a new speculative execution.
著者
酒居 敬一 光成 滋生 成田 剛 石田 計 藤井 寛 庄司 信利
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2001, no.76(2001-ARC-144), pp.141-146, 2001-07-25

近年、マルチメディアアプリケーション向けの拡張命令をサポートした汎用プロセッサが入手できるようになってきた.PCMオーディオをmp3にする処理は遅いと感じていたし,速いエンコーダが切望されていた.そこでAMDの3D Now!やIntelのSSEという拡張命令に着目し,それらの命令をエンコーダの高速化のために使用した.「午後のこ?だ」は,「LAME」を高速化したmp3エンコーダで,そのような命令を使うようにアセンブリ言語で書き換えたものである.さらに440BXチップセットによるIntel SMPにも着目し,マルチスレッド実行による速いmp3エンコーディングも実装してみた.本稿では「午後のこ?だ」に実装した高速化手法や速度向上について述べる.
著者
亘理 靖展 堀尾 一生 入江 英嗣 五島 正裕 坂井 修一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.79, pp.7-12, 2007-08-01

本研究室で提案しているツインテール・アーキテクチャでは,発行幅を増やさずにスーパスカラ・プロセッサに演算器を追加することで実質的に発行幅が増えたような効果が得られる.ツインテール・アーキテクチャでは並列にメモリ・アクセス可能なロード命令が増えることで大きな性能向上が得られる.しかし,プロセッサ内のロード命令の数を増やすためにはロードストア・キューのサイズを大きくする必要があり,配線遅延の増大を招く可能性がある.本論文では,ロードストア・キューからアクセス・オーダ・バイオレーションの検出機構を分離し,アクセス・オーダ・バイオレーションの検出をするバッファを別途設けることで,ツインテール・アーキテクチャにおいて,配線遅延の増大を招くことなく,同時にメモリ・アクセスできるロード命令を増加させるモデルを提案する.シミュレーションによる提案モデルの評価では,ツインテール・アーキテクチャにおいてアクセス・オーダ・バイオレーション検出時の再実行方法を理想的にしたモデルとほぼ同等のIPCの向上が得られた.We propose Twintail Architecture, an architecture which gives effect similar to widening issue width but does not lead to greater latency. Twintail Architecture contributes to superscalar processor's throughput by enabling paralell memory access. However, it seems to provoke wiring delay with enlarging the size of load/store queue for the purpose of increasing in-flight load instructions. In this paper, we propose an reasonable model which increases the number of in-flight load instructions, by decoupling the function of access order violation detection from the load/store queue and enlarging a buffer which detects access order violation. Evaluation showed proposed model improves IPC as well as ideal re-execution model.
著者
安河内 真弓 下尾 浩正 山脇 彰 岩根 雅彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.22, pp.91-96, 2002-03-07
参考文献数
5
被引用文献数
10

様々な応用処理に対して適切な回路構成をとることのできる再構成可能プロセッサMRPを提案する.MRPは,1回の回路構成で複数の機能処理回路を構成できる1プレーンマルチファンクション構成により実行回路の書き換え回数を削減し,大規模な回路に対しては1ファンクションマルチプレーン構成を採ることで対応している.MRPは,CPUコア,再構成部制御回路および複数の再構成部実行回路から成り,再構成部実行回路を動的に変更することでローディング時間を隠蔽することができる.予備実験として,1プレーンマルチファンクションを実現する個別部品構成の試作機486RCPを開発し,評価を行ったところ,フィボナッチ数列の第n項算出では最大30倍の性能向上が得られた.This paper presents the Micro Reconfigurable Processor (MRP) can be suitable circuit composition to the various application processing. MRP reduces the number of times of reconfiguration using Single Plane Multiple Function organization, which can constitute two or more functional processing circuits per circuit configuration. Single Function Multiple Plane organization is enable large circuits to be run on limited physical FPGA. MRP contains CPU core, control logic of reconfigurable part and some reconfigurable part, and the dynamic loading circuit reduces overhead for reconfiguration. We report the experiment model 486RCP, discrete parts composition, which developed for the purpose of realization of Single Plane Multiple Function organization. The experiment results show that 486RCP achieves speedup maximum 30 times on Calculation of Fibonacci numbers.
著者
佐藤充 成瀬 彰 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2000, no.74, pp.1-6, 2000-08-03
参考文献数
4
被引用文献数
5

実機上でメモリバストレースを取得するバストレーサGATES(General purpose memory Access TracE System)を開発した.共有バス型並列計算機上でCommercial Workload(DBMS2種)を実行し,GATESを用いてメモリバストランザクションを取得した.取得したトレースを元に,キャッシュサイズによるバストランザクションの変化を調査した.さらに,トレースを入力とするトレース・ドリブン・キャッシュシミュレーションを行ない,より大きなキャッシュサイズを持つプロセッサを用いた場合のメモリバストランザクションの挙動を予測した.その際,シミュレーションの妥当性を調べるため,実トレースとの比較を行ない,シミュレーションの正当性を確認した.We developed memory-bus trace system, called GATES (General purpose memory Access TracE System). GATES can capture memory transactions on the memory-bus of shared memory multiprocessors. We got traces on a real shared memory multiprocessor machine on which two types of DBMS are running as commercial work-loads. We evaluated effects of cache with various sizes, using these memory-bus traces. Furthermore, we made trace-driven simulator using these traces and evaluated behavior of memory-bus with larger size of caches. We checked our evaluations comparing the result of simulation and real traces.