著者
山本 淳二 田邊 昇 西 宏章 土屋 潤一郎 渡辺 幸之介 今城 英樹 上嶋 利明 金野 英俊 寺川 博昭 慶光院 利映 工藤 知宏 天野 英晴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2000, no.110, pp.19-24, 2000-11-29
参考文献数
7
被引用文献数
9

我々は、フロア内やビル内に設置された計算機間で低レイテンシで高バンド幅な通信を実現するネットワークRHiNETおよびMEMOnetの開発を行なっている。本報告では、RHiNETおよびMEMOnetのネットワークインタフェースのコントローラチップであるMartiniについて述べる。Martiniは、ユーザレベルのゼロコピー通信(OSをバイパスしたユーザプロセスのメモリ空間間のリモートDMA)をハードウェアによりサポートすると共に、チップ内部のコアプロセッサにより柔軟な通信を実現する。
著者
田邊昇 冨森苑子 高田雅美 城和貴
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2013-ARC-204, no.4, pp.1-7, 2013-03-19

HPC における反復解法のみならず、近年ではビッグデータ解析のニーズの高まりにより、大量データへのランダムアクセスの低電力化・高スループット化のニーズが高まっている。キャッシュベースの CPU や GPU において、キャッシュから溢れる配列に対して Scatter/Gather を行なうと、ライン内の空間的局所性の欠乏により消費電力とスループットの両面で深刻な問題が発生する。特に電力やメモリスループットが不足する将来の大規模計算基盤においては、この問題が年々深刻さを増す。本報告では、上記の問題の解決策として、Scatter/Gather 機能を Hybrid Memory Cube 内で行なうことを提案する。提案方式の電力やスループットに関するメリットについて、モデルを構築しつつ、Graph500 ベンチマーク課題行列に対する疎行列ベクトル積を実例に考察する。
著者
冨森 苑子 田邊 昇 高田 雅美 城 和貴
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-135, no.17, pp.1-7, 2012-07-25

エクサスケールマシンは複雑なメモリシステムとなることが予想されている.同マシンへの適用を視野に入れた疎行列ライブラリの実現に向け,本報告では疎行列のキャッシュへの適合性分類に資する疎行列の特性に関する新しい指標として 「列インデックス列の空間的局所性」 を提案する.さらに,入力疎行列および Fold 法前処理後の提案指標の値をフロリダ大学の疎行列コレクションを用いて評価した.その結果,疎行列ベクトル積処理性能と L1 キャッシュヒット率と新指標の間には有意な相関関係があることが確認できた.よって,従来から指摘していた行列サイズと併せ,本指標をアプリ固有の最適化を避けたメモリアクセス機構や前処理アルゴリズム自動選択の指標の一つとする.
著者
田邊昇 冨森苑子 高田雅美 城和貴
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2014-HPC-143, no.7, pp.1-10, 2014-02-24

疎行列ベクトル積 (SpMV) は多くの場合にキャッシュアーキテクチャとの相性が悪い.並列処理においては負荷不均衡が性能に与える影響も大きい.これまでは SpMV 性能を決める要因として,キャッシュのヒット率や一行あたりの非零要素数の平均,最大値,分散が注目されていた.しかし,それらと性能との相関が不明瞭であり,SpMV の挙動は長年にわたり謎に包まれていた.それは SpMV の最適化や,効率的な疎行列ライブラリ構築の障害であった.本報告では,SpMV 性能を左右する様々な要因をアプリケーション依存の要因とプラットフォーム依存の要因に分けて考察した.それを踏まえて行列の非零要素配置から導かれる時間的局所性と空間的局所性等のアプリ依存パラメータを導入した SpMV 性能モデルを構築した.その上でフロリダ大コレクションから抜粋した 115 種の疎行列と GPU を用いて SpMV 性能モデルの評価実験を行った.その結果,GPU 上で実行する場合は Padding に関する補正と小さな行列での補正が必要であることと,長行を折り畳むなど適切な負荷分散がなされた場合はキャッシュのヒット率よりも,空間的局所性やインデックス転送の抑制の方が実効性能に敏感であることが明らかになった.
著者
小郷 絢子 田邊 昇 高田 雅美 城 和貴
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.15, pp.1-10, 2011-07-20

本報告では,係数行列や解ベクトルが GPU 上に載りきらないほど大きな連立一次方程式を共役勾配法 (CG法) で解く際に,メモリアクセラレータの利用を提案する.提案アクセラレータは GDDR5 ポートなどに接続され,デバイスメモリの厳しい容量制約を緩和するとともに,Gather 機能によりキャッシュや GDDR 系メモリが苦手とする間接アクセスを連続アクセス化する.本報告では,フロリダ大学の疎行列コレクションを用いて提案方式の性能評価を行った.その結果,テクスチャキャッシュが効くような小さな行列でも,単体性能はテクスチャキャッシュを用いる既存手法の 1.05~2.01 倍に向上した.従来手法は行列サイズを大きくした時,GPU 内キャッシュのヒット率が低下し,性能低下する.解ベクトルがデバイスメモリ容量を超えると PCI express を通過する通信により,さらなる性能低下が予想される.それに対し,本手法はそれらの心配が無い.In this paper, we propose the use of memory accelerator to solve systems of liner equation, which coefficient matrices and solution vector unable to be had on board by CG method. In the case of existing method, when the size of matrix is increase, performance decrease because of hit probability on GPU cache decrease. We predict that performance decrease because of access of exceed access, the case solution vector is over device memory capacity. In contrast, there is no risk, thanks to this method. Proposed accelerator is connected to such as GDDR5 port, it ease severe capacity limit, and make indirect access which is unsuitable for cache and GDDR memory into direct access using gather function. In this paper, we evaluate the performance of proposed strategy with University of Florida Sparse Matrix Collection. The result showed from the 1.05 to the 2.01 times acceleration over the case of existing performance record with the texture cache, even if small matrix which has effect of texture cache.
著者
田邊 昇 Boonyasitpichai Nuttapon 中條 拓伯
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.16, pp.1-10, 2010-12-09

各種プロセッサのメモリシステムにおける不連続アクセスにおける問題を解決するために筆者らは先行研究で後付けが可能な Scatter/Gather 機能を有する拡張メモリシステムを提案した。これまで Wisconsin ベンチマーク、疎行列ベクトル積などのアプリケーションで評価を行ない、有効性を示してきた。それらの評価研究では提案拡張メモリシステム側のスループットを十分にできるということが前提であった。本報告ではその前提が成り立つか否かについて、メモリシステム側のスループットの実現性を DRAMsim2 ベースのシミュレーションによって評価した。その結果、DDR3・8bit 幅・8 チャネル以上で先行研究の結果の正当性を支持する所望のスループットが得られることを確認した.In order to overcome the problems of discontinuous accessing in memory systems of various processors, we have proposed an extended memory system which has an additional function of scattering and gathering. So far, we have been evaluating our proposed system with Wisconsin benchmark suites and sparse matrix vector multiplications etc. In the evaluations, we assumed that throughput of our proposed memory system was sufficient. In this paper, we have confirmed the assumption on feasibility of throughput of the memory system is correct or not with a simulator based on DRAMsim2. As the result, we have confirmed desired throughput which can justify the proceeded results can be implemented with DDR3 of 8 bits width over 8 channels.
著者
金井 遵 森 拓郎 荒木 健志 田邊 昇 中條拓伯 並木 美太郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.68, pp.59-62, 2006-06-26
被引用文献数
1

本論文では,分散ファイルシステム(DFS)およびメモリマップトファイル機能を利用してOSに手を加えることなく分散共有メモリ(DSM)を実装し,カーネルに手を加えることができないコモディティOS上でクラスタシステムを実現する方法を提案する.大容量バッファを持った高速なネットワークインターフェースであるDIMMnetF2を用い,Windows上で複数のDIMMnet-2の大容量バッファをまとめて-つのDFSおよび,DSMとして利用するドライバとライブラリを設計,実装した.評価では実際に,DSMを用いていくつかの分散処理実験を行った.特に行列乗算による評価では,2ノードの分散処理において1.99倍の性能向上が予測できた.This paper describes implemention of Distributed Shared Memory(DSM)by using Distributed File System(DFS) and Memory Mapped File without changing souce code of OS in order to implement PC Cluster System for a non-open source commodity OS. We have designed and implemented a DFS device driver and a DSM library by plural high-speed network interface cards named DIMMnet-2 with mass buffer for Microsoft Windows. As a result of matrix multiplication evaluation,up to 1.99 times higher performance has been gained by 2-nodes distributed parallel execution.