著者
初田 直也 角田 俊太郎 内田 広平 石谷 太一 塩谷 亮太 石井 敬
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2023-ARC-254, no.9, pp.1-5, 2023-07-27

PEZY-SC3 は我々が開発した高い電力効率と面積効率を持つスーパーコンピュータ向けプロセッサであり,TSMC 7nm プロセス技術を用いて製造されている.PEZY-SC3 は高いスレッドレベル並列性を含むアプリケーションを対象としており,それらにおいて高い効率を実現するために MIMD メニーコアアーキテクチャ,細粒度マルチスレッディング,ノンコヒーレントキャッシュなどの要素を採用している.PEZY-SC3 は MIMD メニーコアアーキテクチャの採用により各コアが独立して動作するため,機能が限定された特殊なテンソルユニットや Wide-SIMD を採用した既存のプロセッサと比較して,高いプログラマビリティを持ちながら高電力効率を実現している.また,PEZY-SC3 の各コアはアウトオブオーダ実行や投機実行のような高コストな技術を一切導入せず,シンプルなパイプラインにより高電力効率と高スループットを両立している.さらに,独自のノンコヒーレントで階層的なキャッシュシステムにより,プログラマビリティを損なうことなくメニーコアにおける高いスケーラビリティを実現している.PEZY-SC3 を搭載したシステムの電力効率は 21.892 GFlops/W であり,スーパーコンピュータの電力効率を測定する Green500(2023 年 6 月)において 39 位となった.本論文ではこの PEZY-SC3 のアーキテクチャの概要と設計について説明する.
著者
堀尾 一生 亘理 靖展 塩谷 亮太 五島 正裕 坂井 修一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.75, pp.7-12, 2008-07-29

本論文はツインテール・アーキテクチャの改良案を提案するものである.ツインテール・アーキテクチャには発行幅や命令ウィンドウ・サイズを実質的に増加させる効果があり,ウェイ数の大きなスーパスカラ・プロセッサの実現に貢献する技術である.本論文が新たに提案するハーフパンプ FU アレイは,ツインテール・アーキテクチャの消費電力を削減するための機構である.ハーフパンプ FU アレイは,ツインテール・アーキテクチャの命令のスループットを保ちながらも,消費電力を抑えることを可能にする.シミュレーションによる評価では,ハーフパンプ FU アレイを実装したツインテール・アーキテクチャは通常のツインテール・アーキテクチャと比べ,2.4% の性能低下にとどまり,ベースモデルのスーパスカラ・プロセッサに対して,平均で 10.7% の性能向上が得られた.This paper proposes a new inplementation of Twintail Architecture. Twintail Architecture is a technique which qives effect similar to increasing issue width and instruction window size, but at low hardware cost. It is expected to contribute to a practical implementation of ultra-wide super scalar processor. This paper's proposal, Half-pumped FU Array, reduces power consumption of Twintail Architecture at minimal performance cost. Our evaluation showed that Twintail Architecture with Half-pumped FU Array improves IPC of base model super scalar processor by 10.7%, a 2.4% performance loss from conventional Twintail Architecture.
著者
山下 淳 二本松 秀樹 山本 和諒 浅井 優太 塩谷 亮太 五島 正裕 津邑 公暁
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2022-ARC-248, no.46, pp.1-13, 2022-03-03

現代の科学技術分野の進歩を支える高性能な大規模並列計算基盤は分散メモリ型と呼ばれるハードウェアの形態を取る.この形態を前提としたシステムでは,高性能なプログラムを実現するために,長い期間を費やして手動でチューニングする必要があり,生産性が問題となっている.このような中,生産性と性能を両立しうる機構としてトランザクショナルメモリ(TM)への関心が高まっている.TM はマルチコアプロセッサ向けに多く研究されてきたが,この機構を分散システムにも適用することで,分散メモリ型におけるプログラミングを単純にすることも可能であるという考えから,分散システムを対象とする分散トランザクショナルメモリ(DTM)が提案されているが,実用的な実装は未だ存在していない.我々は生産性と性能を両立する大規模並列計算基盤を実現するため DTM に着目し,生産性の高いプロトタイプを開発したが,性能面に改善の余地がある.そこで本稿では,DTM の性能を高めるためのソフトウェアキャッシュを設計および実装する.提案する DTM システムの有効性を確認するため,マイクロベンチマークおよび STAMP ベンチマークを用いて評価した結果,プロトタイプと比較してマイクロベンチマークでは 1.56倍,STAMP では 3.64 倍の高速化を確認した.
著者
眞下 達 塩谷 亮太 井上 弘士
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2020-ARC-240, no.32, pp.1-11, 2020-02-20

動的スクリプト言語は幅広い分野で利用されているものの,その実行時オーバーヘッドが大きな課題となっている.動的スクリプト言語を処理する仮想マシンでは一般に,実行時にさまざまな要素を動的に解決する必要がある.特に,仮想マシン上のオペランドの処理では多くのメモリ・アクセスを必要とし,それが実行性能を下げる大きな要因となっている.このオーバーヘッドを削減するために我々は OFAR (Operand Fetching And Remapping)と呼ぶ手法を提案する.OFARは,(1) オペランド値の浮動小数点物理レジスタ (FPPR: Floating-Point Physical Register) へのマップと,(2)オペランド番号のフロントエンドによるフェッチの,2つから成る.一般に,仮想マシンの大分部は整数命令によって実装されており,FPPR の大部分は使用されていない.これを利用し,通常はメモリ上に置かれる仮想的なオペランドの値を FPPR にマップする.これにより,オペランド・アクセスに伴うメモリ・アクセスの多くを省略することができる.また一般に,仮想命令のオペランド番号は基本的には不変であり,命令コードと同様に演算の結果により書き換わることがない.これを利用し,通常はバックエンドで読み出されるオペランド番号を,命令フェッチと同じようにしてフロントエンドで読み出す.これにより,オペランド番号をロードするための命令が省略されることに加え,早期にオペランド番号が得られることによりレイテンシを削減する.
著者
藤田晃史 中島潤 早水光 塩谷亮太
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014, no.15, pp.1-4, 2014-01-16

本稿ではスーパースカラ・プロセッサ 「雷上動」 の設計と実装について述べる.雷上動は 32bit ARM 命令セットのサブセットを実行するプロセッサである.雷上動では最大 64 インフライト命令を動的にスケジューリングして実行し,最大 5 命令を同時発行可能である.雷上動ではスーパースカラ・プロセッサや FPGA に関する様々な研究成果を取り入れることにより,高面積効率な実装を実現している.FPGA 向けに合成した結果,Xilinx Spartan-6 上で 18000 LUT程度の回路規模となり,60 MHz で動作した.
著者
稲垣 貴範 塩谷 亮太 安藤 秀樹
出版者
電子情報通信学会
雑誌
電子情報通信学会技術研究報告 : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.111, no.388, pp.37-45, 2012-01-19

データ・プリフェッチを実現する方法の1つに命令の先行実行がある.過去に我々は,単一スレッド環境で命令の先行実行を実現する手法として仮想リオーダ・バッファ(VROB:virtual reorder buffer)方式を提案した.この手法を用いれば,多くのロード命令のレイテンシが短縮され,大きな性能向上を達成できることを示した.しかし,VROB方式ではプロセッサ内に多くの先行実行命令を保持する必要があるため,素朴な実装では重要な資源(リオーダ・バッファ,レジスタ・ファイル,発行キュー,ロード/ストア・キュー(LSQ:load/store queue))のサイズを大きくする必要があり,クロック・サイクル時間に悪影響を与える.過去の研究では,この問題について,LSQ以外では解決されていたが,LSQだけは解決されていなかった.本論文では,先行実行ロードに対するin-flightストアへの依存を無視することにより,先行実行のために必要であったLSQを削除し,クロック・サイクル時間への悪影響を除去することを提案する.メモリ・インテンシブなプログラムが多いSPECfp2000ベンチマークを用いて評価を行った結果,十分に大きなLSQを持ち,正しく依存を守る場合に比べ,性能低下をわずか1%に抑えられることがわかった.情報処理学会研究報告計算機アーキテクチャ(ARC). v.2012-ARC-198, n.9. 2012, p.1-9 (c)情報処理学会
著者
有松 優 塩谷 亮太 安藤 秀樹
出版者
電子情報通信学会
雑誌
電子情報通信学会技術研究報告 : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.111, no.388, pp.47-53, 2012-01-19

発行キューを拡大することは,命令レベル並列(ILP:instruction-level parallelism)の利用において重要である.しかし,大きな発行キューは電力を多く消費するという問題があり,また,拡大に対する性能向上率はしだいに低減する.よって,単純な拡大は電力効率が悪い.本論文では,大きな発行キューが必要となるL1データ・キャッシュ・ミス時に拡大を行うことでペナルティを隠蔽し,高いIPCを達成しつつ、一方で,そのようなイベントがない定常状態では電力効率を重視し,可能なだけ発行キューの縮小を行う動的リサイジング手法を提案する.SPEC2000ベンチマークを用い本手法の評価を行った結果,128エントリの発行キューを持つプロセッサに対し,SPECint2000では,約0.3〜1.5%の性能低下で,約50〜67%の発行キュー・サイズの削減率を,SPECfp2000では,約3〜7%の性能低下で,約50〜65%の発行キュー・サイズの削減を達成した.情報処理学会研究報告計算機アーキテクチャ(ARC). v.2012-ARC-198, n.10. 2012, p.1-7 (c)情報処理学会
著者
地代 康政 出岡 宏二郎 塩谷 亮太 安藤 秀樹
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2016-ARC-219, no.14, pp.1-6, 2016-03-17

特性の異なる複数の実行系を単一コア内にそなえ,それらを使い分けることによってエネルギー効率を向上させる Tightly-Coupled Heterogeneous Cores(TCHCs) が提案されている.TCHCs の一つであるコンポジット・コアでは,インオーダとアウト・オブ・オーダのバックエンドを備えており,両者を切り替えて使用する.しかしコンポジット・コアはバックエンド切り替えペナルティや切り替えアルゴリズムの問題により,十分に消費エネルギーを削減できていない.この問題を解決するため,本研究では我々が提案してきた TCHC である Front-end Execution Architecture(FXA) をベースとして,低消費電力な実行モードを追加した Dual-Mode Front-end Execution Architecture(DM-FXA) と,そのためのモード切り替えアルゴリズムを提案する.提案手法を評価した結果,通常のアウト・オブ・オーダ・スーパスカラ・プロセッサと比較して 96.8%の性能を維持しつつ,平均 38.8%のエネルギー削減を達成した.