著者
井上 弘士 村上 和彰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2000, no.110, pp.25-30, 2000-11-29
参考文献数
7
被引用文献数
3

現在多くのプロセッサ・チップには, 当然のようにキャッシュ・メモリが搭載されている.また, 更なるヒット率の向上を目的として, キャッシュ・サイズは年々増加傾向にある.そのため, キャッシュ・アクセスにおける消費エネルギーが増大し, ひいては, チップの全消費エネルギーに大きな影響を与えるようになってきた.特に, 命令キャッシュへのアクセスは毎クロック・サイクル発生するため, その低消費エネルギー化が極めて重要となる.そこで本稿では, ダイレクト・マップ命令キャッシュの低消費エネルギー化を目的として, ヒストリ・ベース・タグ比較方式を提案する.プログラムの実行履歴に基づき, 必要に応じてタグ比較を行うことで, キャッシュ・アクセス当りの消費エネルギーを削減できる.複数ベンチマークを用いた実験の結果, 従来型タグ比較方式と比較して, 全ての浮動小数点プログラムで約90%以上, 2つの整数プログラムで約80%以上のタグ比較を削減できた.
著者
山本 淳二 田邊 昇 西 宏章 土屋 潤一郎 渡辺 幸之介 今城 英樹 上嶋 利明 金野 英俊 寺川 博昭 慶光院 利映 工藤 知宏 天野 英晴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2000, no.110, pp.19-24, 2000-11-29
参考文献数
7
被引用文献数
9

我々は、フロア内やビル内に設置された計算機間で低レイテンシで高バンド幅な通信を実現するネットワークRHiNETおよびMEMOnetの開発を行なっている。本報告では、RHiNETおよびMEMOnetのネットワークインタフェースのコントローラチップであるMartiniについて述べる。Martiniは、ユーザレベルのゼロコピー通信(OSをバイパスしたユーザプロセスのメモリ空間間のリモートDMA)をハードウェアによりサポートすると共に、チップ内部のコアプロセッサにより柔軟な通信を実現する。
著者
井手上慶 河村慎二 津邑公暁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告
巻号頁・発行日
vol.2014, no.1, pp.1-9, 2014-09-29

スマートフォンなどの普及に伴い,ガベージコレクション (GC) の性能が与える影響範囲が拡大している.一方,GC は主にアルゴリズム面で改良がなされてきたが,GC 実行時のレスポンス低下など,重要な問題の根本的解決には未だ至っていない.これに対し我々は,ハードウェア支援により GC を高速化する手法をこれまでにいくつか提案しており,その有用性について検討してきた.本稿では,まず我々が提案している二つの手法を取り上げ,それぞれ評価結果を示すとともにその有用性について述べる.これらの手法はいずれも,GC における基本的な構成処理要素に着目し,その高速化を図るものである.その後,現在我々が取り組んでいるハードウェア支援を用いたコンパクション機能について述べる.コンパクション機能を実装している既存の GC アルゴリズムはいくつか存在しているが,オブジェクトの移動時には当該オブジェクトを参照しているポインタを張り替える必要があり,これは一般にコストが比較的大きい.そこで本手法では,オブジェクト間の参照関係を記憶する専用の表をプロセッサに追加し,これを利用することで高速なポインタの書き換え,およびコンパクション機能の実現を目指す.そして最後に,この手法により期待される効果について考察する.
著者
間瀬 正啓 木村 啓二 笠原 博徳
出版者
情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.184, pp.O1-O10, 2009-08-04
参考文献数
27
被引用文献数
11

本稿ではコンパイラによる自動並列化を可能とするための C 言語の記述方法として Parallelizable C を提案する.Parallelizable C で記述した科学技術計算およびマルチメディア処理の逐次プログラム 6 本に対して OSCAR コンパイラによる自動並列化を適用し,マルチコアシステム上での処理性能の評価を行った.その結果,逐次実行時と比較して,2 コア集積のマルチコアである IBM Power5+ を 4 基搭載した 8 コア構成のサーバである IBM p5 550Q において平均 5.54 倍,4 コア集積のマルチコアである Intel Core i7 920 プロセッサを搭載した PC において平均 2.43 倍,SH-4A コアベースの情報家電用マルチコア RP2 の 4 コアを使用した SMP 実行モードにおいて平均 2.78 倍の性能向上が得られた.This paper proposes Parallelizable C, a guideline for writing C programs which enables automatic parallelization by a compiler. 6 sequential programs written in Parallelizable C from numerical and multimedia application domains are automatically parallelized by OSCAR compiler. The parallel processing performance for these applications are evaluated on multicore systems. The evaluation results show that the compiler automatic parallelization achieves average 5.54 times speedup on a 8 cores server IBM p5 550Q with 4 dual-core Power5+ processors, average 2.43 times speedup on a 4 cores multicore processor PC with Intel Core i7 920, and average 2.78 times speedup on Renesas/Hitachi/Waseda RP2 with SH-4A cores in SMP execution mode using 4 cores compared with sequential execution, respectively.
著者
奥山 倫弘 伊野 文彦 萩原 兼一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2008, no.19, pp.145-150, 2008-03-05
参考文献数
6

本論文では全点対最短経路(APSP:All-Pairs Shortest Path)問題をGPU(Graphics Processing Unit)を用いて高速化した結果を述べる.提案手法は,GPUで動作するプログラムをGPU向けの開発環境CUDA(Compute Unified Device Architecture)を用いて記述する.アルゴリズムには単一始点最短経路を繰り返し求める手法(SSSP反復法)を用いる.問題全体での逐次処理を減らしてより高い速度向上を得るために,1っのSSSP問題を1つのタスクとし,それらのタスクを並列処理する.さらに,共有メモリを用いてタスク間でデータを共有し,グローバルメモリの参照を削減する.結果,既存手法よりも3.5〜18倍高速であった.また,SSSP反復法の性能がグラフの特性に依存して変動することを示す.
著者
矢野 裕章 中西 正樹 三輪 忍 中條 拓伯
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.181, pp.75-80, 2009-01-06

現在,東京農工大学共生科学技術研究院を中心に共生情報工学プロジェクトが推進されている.今後のマルチコアプロセッサや組み込み機器で構成される並列/分散ネットワーク環境において、仮想マシンを構築することで汎用的な計算環境を実現することを目的とする.その大規模分散環境において,利用するプロセッサの台数の増加にしたがって性能を向上させるための組み込み仮想プロセッサの概念を提案する.そして,その実験評価システムについて示し,実装の方向性について述べる.
著者
中田 尚 津邑 公暁 中島 浩
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2005, no.80, pp.97-102, 2005-08-03
被引用文献数
1

高度なマイクロプロセッサの研究・開発や, それを組み込んだ機器のハードウェア・ソフトウェア協調設計においては, その機能・性能を検証するためのcycle accurateなシミュレータが不可欠である.しかし, 既存のシミュレータは一般に低速であり, 開発の効率化の障害となっている.これに対して, スケジューリング計算の高速化や命令エミュレーションの高速化が提案され, 効果を上げている.一方, これらの実行時間短縮により, キャッシュシミュレーションの実行時間の割合が相対的に大きくなり, その短縮がシミュレーションのさらなる高速化のための課題となっている.本論文では, 個々のキャッシュに対して最適化されたシミュレータを生成することにより, キャッシュシミュレーションの高速化を図る.SPEC CPU95ベンチマークを用いて評価を行った結果, SimpleScalarのsim-cacheに対して, 最大14.1倍, 平均8.3倍のシミュレーション速度の向上が確認できた.
著者
大津山 公平 Sergey V. Ten 小林 誠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.96, no.80, pp.113-118, 1996-08-27
参考文献数
11

パイプライン制御、スーパースカラ、分岐予測、多階層キャッシュなどを用いた最近の高速計算機の正確な性能評価を行うために命令トレース駆動シミュレーションはますます重要性を高めてきている。しかしながら命令卜レースの作成は多大な労力を必要とする。今回、我々はPowerPCの仮想計算機環境であるPVSにmallocなどの基本関数を追加することで、命令トレースを容易に採集することを可能にした。本論文ではPVSの機能拡張とSPEC92トレースの解析結果について報告する。