著者
中島 耕太 成瀬 彰 住元 真司 久門 耕一
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2011, pp.126-135, 2011-05-18

本論文では,通信量バランスの良いデッドロック回避ルーティング手法であるターン追加法を提案する.本手法は,ターン禁止法の一種であり,スイッチの入力ポートと出力ポートの組であるターンの使用を部分的に禁止してデッドロックを回避する手法である.全ターンを禁止した状態を初期状態とし,通信量の大きいターンから順に許可判定を行い,そのターンを使用してもデッドロックが生じない場合は当該ターンを許可する.ターン単位で禁止/許可を判別するため,既存手法と比較するとネットワークの一部分や一部のスイッチに禁止ターンが偏りやすくなる傾向は低くなる.このため,通信量バランスの良いルーティングを実現しやすい.本手法をランダムネットワークと Fat Tree ベースのクラスタネットワークに適用し,評価した.ランダムネットワークでは,Up*/Down* 法と比較してスループットを最大 2.05 倍改善し,TP 法と比較してほぼ同性能であることを確認した.また,クラスタネットワークでは,8192 ノード構成の Fat Tree を 2 つ接続した場合,Fat Tree を接続する経路において,TP 法と比較して,スループットを最大 4.77 倍改善できることを確認した..
著者
松本 幸 安達 知也 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2012, pp.245-253, 2012-05-09

本論文では,82,944台の計算ノードをTofuインターコネクトと呼ばれる6次元の直接網で結合した「京」におけるMPI集団通信の高速化について述べる.従来のMPIライブラリには,トポロジを考慮したアルゴリズムが存在しないため,「京」のような直接網において性能を出すことができない.そのため,Trinaryx3と呼ばれるAllreduceを設計し,「京」向けのMPIライブラリに実装した.Trinaryx3アルゴリズムは,トーラス向けに最適化されており,「京」の特長のひとつである複数RDMAエンジンを活用することができる.実装を評価した結果,既存のトポロジを考慮していないアルゴリズムと比較して,5倍のバンド幅の向上を確認した.
著者
河南 克也 藤本 典幸
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2011, pp.365-372, 2011-05-18

2 つの文字列の最長共通部分列を求める LCS 計算は遺伝子の比較などの様々な応用を持つ.本論文では Crochemore らのビット並列アルゴリズムを用いて改善した Hirschberg の CPU 用 LCS アルゴリズムを,GPU を用いて高速化する方法を提案する.Crochemore らのアルゴリズムは 1 ビット毎に同時並列実行が可能なビット毎の論理演算の他に,逐次性が強い算術加算など,GPU での実装に工夫が必要な演算も含んでいる.本論文では特にそれらの演算の効率的な実装方法について論じる.その方法に基いて設計したプログラムを,2.93GHz Intel Core i3 530 CPU とGeForce 8800 GTX,GTX 285,GTX 480 GPU を用いて評価した結果,CPU 上でのビット並列アルゴリズムに対しては最大 12.77 倍,Hirschberg の CPU 用 LCS アルゴリズムに対しては最大 76.5 倍高速であった.また,Kloetzli らの GPU を用いた既存アルゴリズムに対しては 10.9 倍から 18.1 倍高速であった.
著者
橋本 高志良 江藤 正通 堀場 匠一朗 津邑 公暁 松尾 啓志
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2013, pp.162-169, 2013-05-15

マルチコア環境では,一般的にロックを用いて共有変数へのアクセスを調停する.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これに代わる並行性制御機構としてトランザクショナル・メモリが提案されている.この機構においては,アクセス競合が発生しない限りトランザクションが投機的に実行されるため,一般にロックよりも並列性が向上する.しかし,Readafter-Readアクセスが発生した際に投機実行を継続した場合,その後に発生するストールが完全に無駄となる場合がある.本稿では,このような問題を引き起こすRead-after-Readアクセスを検出し,それに関与するトランザクションを敢えて逐次実行することで,全体性能を向上させる手法を提案する.シミュレーションによる評価の結果,提案手法により最大66.9%の高速化を確認した.
著者
橋口 慎哉 福本 尚人 井上 弘士 村上 和彰
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2011, pp.306-315, 2011-05-18

本稿では,3 次元積層 DRAM の利用を前提とし,大幅なチップ面積の増加を伴うことなく高いメモリ性能を達成可能な新しいキャッシュ・アーキテクチャを提案する.3 次元積層された DRAM を大容量キャッシュとして活用することで,オフチップメモリ参照回数の劇的な削減が期待できる.しかしながら,その反面,キャッシュの大容量化はアクセス時間の増加を招くため,場合によっては性能が低下する.この問題を解決するため,提案方式では,実行対象プログラムのワーキングセット・サイズに応じて 3 次元積層 DRAM キャッシュを選択的に活用する.ベンチマークプログラムを用いた定量的評価を行った結果,提案方式は動的制御方式で平均 15% の性能向上を達成した.
著者
佐々木 大輔 松谷 宏紀 竹 康宏 小野 友己 西山 幸徳 黒田 忠広 天野 英晴
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2011, pp.399-406, 2011-05-18

誘導結合によるチップ間ワイヤレス接続技術は,製造後にチップを重ねて実装することで,三次元積層が可能であり,その高い柔軟性と転送性能が注目されている.この三次元転送技術を有効に利用するためには,積層されたチップのコア間で容易にデータを転送を行う方式を確立する必要がある.本論文では,ワイヤレス誘導結合を用いてチップ間でコミュニケーションを行う手法として,垂直バブルフローを利用したリング型 NoC を提案し,仮想チャネルを用いたリング型 NoC,および,垂直バス方式と比較する.さらに,これらの通信方式を搭載したプロトタイプチップを実装し,それぞれの手法による性能,および,面積の違いを測定する.シミュレーションによる評価の結果,プロトタイプチップは 200MHz で動作し,誘導結合部分は 4GHz 超のクロック伝送によるダブルデータレート伝送を実現,平均消費電力は最大は 33.8mW となった.垂直バブルフローおよび仮想チャネルを用いたリング型 NoC は,垂直バス方式と比べ高いスループット性能を実現した.さらに,垂直バブルフローは既存の仮想チャネルを用いる方式よりも面積性能比で優れることが分かった.