著者
中田 尚 吉見 真聡 片桐 孝洋 吉瀬 謙二 岡本 吉央 津邑 公暁
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2009-ARC-184, no.24, pp.1-6, 2009-07-28

先進的計算基盤システムシンポジウム SACSIS2009 併設企画として,マルチコアプログラミングコンテスト 「Cell チャレンジ 2009」 を開催した.文字列の編集距離を求める規定課題部門,および各チームが自由に課題を設定できる自由課題部門の 2 部門で行ったところ,のべ 77 チームの参加を集め,盛況に終えることができた.本稿では,Cell チャレンジ 2009 の実施報告を行う.
著者
Chaojie Zhang Koichi Shirahata Shuji Suzuki Yutaka Akiyama Satoshi Matsuoka
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-213, no.29, pp.1-7, 2014-12-02

Homology search to be used in emerging bioinformatics problems such as metagenomics is of increasing importance and challenge as its application area grows more broadly while the computational complexity is increasing, thus requiring massive parallel data processing. Earlier work by some of the authors have devised novel algorithms such as GHOSTX, but the master-worker parallelization to enumerate and schedule for data processing was done with a privately developed, MPI-based master-worker framework called GHOST-MP. An alternative is to utilize the now-popular big data software substrates, such as MapReduce with abundant associated software tool-chains, but it is not clear whether the massive resource required by metagenomic homology search would not overwhelm its known limitations. By converting the GHOST-MP master-worker data processing pipeline to accommodate MapReduce, and benchmarking them on a variety of high-performance MapReduce incarnations including Hadoop and Spark, we attempt to characterize the appropriateness of MapReduce as a generic framework for metagenomics that embody extremely resource consuming requirements for both compute and data.
著者
森下 浩二 横川 三津夫 宇野 篤也 石原 卓 金田 行雄
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014, no.17, pp.1-5, 2014-12-02

現在日本最速のスーパーコンピュータである 「京」 を用いて,一様等方性乱流の超大規模直接数値シミュレーション (DNS) を実現するために,地球シミュレータ向けに開発された,フーリエ・スペクトル法に基づく一様等方性乱流の DNS コードの 「京」 への移植,及び最適化を行った.移植の際には,従来の 1 次元分割によるデータ分散手法から,より効率的な All-to-all 通信が可能であると考えられる 2 次元分割による手法へと変更を行った.その結果,「京」 の 192×128 ノードを用いて最大格子点数 122883 の超大規模 DNS の実現に成功した.これはプロダクトランとしては世界最大の一様等方性乱流の DNS である.ピーク性能比として,格子点数 61443,81923,122883 の DNS でそれぞれ 3.84%,3.14%,2.24% の実効性能が得られた.また,コードの更なる高効率化のために,乱流 DNS 特有のアルゴリズムに対する最適化を試み,その性能評価を行った.
著者
田邊昇 冨森苑子 高田雅美 城和貴
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2013-ARC-204, no.4, pp.1-7, 2013-03-19

HPC における反復解法のみならず、近年ではビッグデータ解析のニーズの高まりにより、大量データへのランダムアクセスの低電力化・高スループット化のニーズが高まっている。キャッシュベースの CPU や GPU において、キャッシュから溢れる配列に対して Scatter/Gather を行なうと、ライン内の空間的局所性の欠乏により消費電力とスループットの両面で深刻な問題が発生する。特に電力やメモリスループットが不足する将来の大規模計算基盤においては、この問題が年々深刻さを増す。本報告では、上記の問題の解決策として、Scatter/Gather 機能を Hybrid Memory Cube 内で行なうことを提案する。提案方式の電力やスループットに関するメリットについて、モデルを構築しつつ、Graph500 ベンチマーク課題行列に対する疎行列ベクトル積を実例に考察する。
著者
児玉 祐悦 高野 了成 岡崎 史裕 工藤 知宏 伊藤 智
出版者
情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.5, pp.1-7, 2009-11-23

データセンタの省エネルギー化を推進するために、IT 機器による生産性を加味した電力利用効率の指標が求められている。そのような指標を策定するために、処理内容による消費電力のモデル化が重要となる。その一歩として、ネットワーク転送時のノードの消費電力のモデル化を試みた。その際、ペーシングによる帯域制御を行ったところ、転送バンド幅を減少させても消費電力が増加する場合が観測された。これは割り込み削減機構に因るものであり、この割り込み遅延時間を制御することにより、消費電力を削減することができた。ネットワーク転送時の消費電力のモデル化には、転送バンド幅だけでなく、割り込み回数をパラメータとすることが有効であった。To improve the energy efficiency of data centers, the new metrics for data center efficiency are required to include productivity that is a useful work produced in a data center. To propose a new metric, we will create a model of power consumption for productivity. As the first step, we measured the power consumption of nodes when they communicate using network. In this measurement, we observed that the power consumption increased when the effective bandwidth was decreased with rate controlling by pacing. This phenomenon was caused by interrupt coalescing, and by controlling the delay time of interrupt the power consumption can be decreased. We also found that the number of interrupts is a good parameter to estimate the power consumption of nodes with communication.
著者
有間 英志 三輪 忍 中田 尚 中村 宏
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2015-ARC-214, no.7, pp.1-6, 2015-01-22

近年,不揮発性メモリや 3 次元積層技術等デバイス技術の進歩によって,これまで以上に大容量のメモリをオンチップに実装することが可能となりつつある.また,この様な大容量メモリをラスト・レベル・キャッシュ (LLC) として用いる利用法が提案され,大幅な性能向上が可能であることが示されてきた.しかし,これまでの大容量 LLC に関する先行研究では,TLB ミスペナルティの影響については,十分な考慮がなされてこなかった.LLC の大容量化に伴い,LLC 上に格納されたデータの内,当該ページアドレスが TLB 上に存在しないものの割合は増大する.その様なデータがアクセスされると TLB ミスが発生し,キャッシュもしくはメインメモリ上に存在する当該ページテーブルエントリへのアクセスが発生する.この TLB ミスペナルティの影響を削減することは,今後 LLC の大容量化がさらに進むにつれて極めて重要となる.そこで本研究では,大容量 LLC 上において,ページテーブルエントリを保持するラインの存在割合を最適化し,ページテーブルへのアクセスの殆どを LLC 上でヒットさせることによって,TLB ミスペナルティの削減を目指す.本稿では,これを行うためのキャッシュリプレイスメントアルゴリズムを検討し評価を行った.
著者
山田遼平 橋本高志良 津邑公暁
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-211, no.1, pp.1-8, 2014-07-21

マルチコア環境では,共有変数へのアクセス調停のためにロックを用いることが一般的である.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これに代わる並行性制御機構としてトランザクショナルメモリ (TM) が提案されている.この機構のハードウェア実装であるハードウェア・トランザクショナルメモリ (HTM) では,アクセス競合が発生しない限りトランザクションが投機実行される.HTM では投機実行が失敗した場合,再び競合が発生することをを防ぐため,トランザクションの再実行までに待機時間を設定するアルゴリズムが採用されている.しかし,既存の待機アルゴリズムでは適切な待機時間を設定できていないため,再び競合が発生して投機実行の失敗が繰り返されることで,HTM の性能が著しく低下してしまう場合がある.本稿では,この待機アルゴリズムを改良し,トランザクションの実行状況に応じた待機処理を行うことで HTM を高速化する手法を提案する.シミュレーションによる評価の結果,提案手法により最大 59.9%,16 スレッドで平均 11.2%の高速化を確認した.
著者
森下 浩二 横川 三津夫 宇野 篤也 石原 卓 金田 行雄
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-213, no.17, pp.1-5, 2014-12-02

現在日本最速のスーパーコンピュータである 「京」 を用いて,一様等方性乱流の超大規模直接数値シミュレーション (DNS) を実現するために,地球シミュレータ向けに開発された,フーリエ・スペクトル法に基づく一様等方性乱流の DNS コードの 「京」 への移植,及び最適化を行った.移植の際には,従来の 1 次元分割によるデータ分散手法から,より効率的な All-to-all 通信が可能であると考えられる 2 次元分割による手法へと変更を行った.その結果,「京」 の 192×128 ノードを用いて最大格子点数 122883 の超大規模 DNS の実現に成功した.これはプロダクトランとしては世界最大の一様等方性乱流の DNS である.ピーク性能比として,格子点数 61443,81923,122883 の DNS でそれぞれ 3.84%,3.14%,2.24% の実効性能が得られた.また,コードの更なる高効率化のために,乱流 DNS 特有のアルゴリズムに対する最適化を試み,その性能評価を行った.
著者
見神 広紀 宮本 孝道 木村 啓二 笠原 博徳
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2010-ARC-187, no.22, pp.1-6, 2010-01-21

本稿ではビデオコーデックである H.264/AVC エンコーダの高速化手法としてフレームおよびマクロブロックでの階層的な並列処理を提案する.H.264/AVC エンコーダの一実装である x264 上にマクロブロックでの並列処理機能を実装し,64 コアのマルチコアシステム上での処理性能の評価を行った.その結果,2 コア集積のマルチコアである Intel Itanium2 (Montvale) を 32 基搭載した 64 コア構成の ccNUMA サーバである SGI Altix450 において,フレームでの並列処理のみの場合が 6.3 倍であったのに対しフレームおよびマクロブロックの 2 階層で行った場合は 10.6 倍の性能向上が得られた.
著者
藤田晃史 中島潤 早水光 塩谷亮太
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014, no.15, pp.1-4, 2014-01-16

本稿ではスーパースカラ・プロセッサ 「雷上動」 の設計と実装について述べる.雷上動は 32bit ARM 命令セットのサブセットを実行するプロセッサである.雷上動では最大 64 インフライト命令を動的にスケジューリングして実行し,最大 5 命令を同時発行可能である.雷上動ではスーパースカラ・プロセッサや FPGA に関する様々な研究成果を取り入れることにより,高面積効率な実装を実現している.FPGA 向けに合成した結果,Xilinx Spartan-6 上で 18000 LUT程度の回路規模となり,60 MHz で動作した.
著者
山下 良 近藤 正章 平澤 将一 本多 弘樹
出版者
情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.3, pp.1-8, 2011-03-03

近年,データセンタの省エネルギー化への要求が高まっている.データセンタでは機器の更新が頻繁に行われるため,様々な計算機で構成されているヘテロジニアス構成であることが多い.そのため,同一タスクを処理するのに要する消費エネルギーはサーバ毎に異なり,スケジューリングによって,タスクセットの処理に必要な消費エネルギーも異なる.本稿では,先行制約を持つタスクセットを対象に,ヘテロジニアスなサーバ計算機環境を考慮した低消費エネルギー化タスクスケジューリング手法を提案する.提案手法は,従来の Heterogeneous Earliest Finish Time (HEFT) 法のスケジューリング結果を基に,プロセッサのアイドル時,またはスタンバイモード時の消費電力を考慮しつつ,サーバへのタスク再割り当てを行うことで,タスク処理のエネルギーを削減するものである.本提案手法を評価したところ,HEFT 法に比べ,タスクセットのスケジュール長を変えずに消費エネルギーを削減できることがわかった.Reducing energy consumption of data-centers is one of the important requirement for data-center operations. Since the hardware of server systems is replaced frequently, there is a heterogeneity in data-centers. Therefore, the energy consumption for processing a task depends on the server that the task is allocated. In this paper, we propose a task scheduling method to reduce energy consumption for processing a task set in which each task has dependency to other tasks. Our method is based on the Heterogeneous Earliest Finish Time (HEFT) scheduling algorithm. After HEFT scheduling, we re-allocate tasks to low-power servers without increasing the critical path length of the task set. We evaluate the proposed method and the evaluation results reveal that the proposed method successfully reduces energy consumption in most of the evaluated cases.
著者
松本 幸 安達 知也 田中 稔 住元 真司 曽我 武史 南里 豪志 宇野 篤也 黒川 原佳 庄司 文由 横川 三津夫
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2011-ARC-197, no.6, pp.1-10, 2011-11-21

本報告では,8 万台以上のノードを直接網で結合した 「京」 における MPI 集団通信の高速化について述べる.従来の MPI 集団通信アルゴリズムは,間接網向けのアルゴリズムが主体であり,これを直接網に適用してもメッセージの衝突のため効率的な通信ができない.このため,高い通信性能を得るためには直接網を意識した集団通信アルゴリズムが必須となる.そこで我々は,トーラス向け Allreduce アルゴリズム Trinaryx3 Allreduce を設計し,「京」 向けの MPI ライブラリに実装した.Trinaryx3 Allreduce は,「京」 の特長である複数 RDMA エンジンを同時に活用することができる.実装を評価した結果,既存の間接網向けアルゴリズムと比較して,5 倍程度バンド幅が向上することを確認した.
著者
入江英嗣 山中崇弘 佐保田誠 吉見真聡 吉永努
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2013-ARC-206, no.5, pp.1-10, 2013-07-24

プロセッサの性能向上の基本戦略は,2000 年頃からはマルチコア構成の拡張が主流となり,トランジスタ資源をコア数の増加に利用することで,効率的に TLP 性能を向上させてきた.しかしこのアプローチも,TLP の収穫逓減やダークシリコンの増加など,継続的な成長には限界が指摘されている.この限界を打ち破り,高性能なメニーコアプロセッサを実現するための課題の一つとして,一つ一つのコアの実行性能と電力効率の双方を高める実行アーキテクチャの開発が挙げられる.ここではピーク ILP 実行幅よりも,コンスタントな高性能と高効率が求められる.3 次元実装技術に代表されるように,パッケージ内トランジスタ数の増加は堅調であり,容量を用いて処理レイテンシと電力を削減するアーキテクチャへの転換が今後のプロセッサ成長の鍵と考えられる.本論文では,ライト・ワンス・マナーに基づいた大きな論理レジスタ空間を導入することで,レジスタリネーミング処理を取り除き,更にはバックエンド幅の増加なく実行性能を増加させる STRAIHGT アーキテクチャを提案し,実現のための技術と性能の見積もりを述べる.STRAIGHT アーキテクチャに見立てたパラメタを用いた初期評価では,同じワークロードに対するエネルギー消費を 12% 削減しながら,同時に約 30% の IPC 向上が得られ,性能/パワー比を改善する新しい実行方式として有効であることが示された.
著者
Ye Gao Ryusuke Egawa Hiroyuki Takizawa Hiroaki Kobayashi
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2010-ARC-190, no.24, pp.1-10, 2010-07-27

Nowadays, multimedia applications (MMAs) form an important workload for general purpose processors. The vector processing is considered as the most potential approach for MMAs due to plenty of data level parallelism involved in them. However, the tradition vector architectures obey an in-order issue policy (IIP). The IIP issue policy blocks the following instructions to be issued, no matter whether they are ready to be issued or not. This paper proposes a media-oriented vector architectural extension with an out-of-order vector processing mechanism (OVPM). The OVPM overcomes the inefficiency on utilization of the memory bandwidth and vector functional units. As a result, the proposed architecture achieves a higher performance with lower hardware cost than the traditional one. This paper evaluates the proposed architecture with architectural design parameters and finds out the most efficient size for the vector architecture when performing MMAs.
著者
小倉佑太 佐藤未来子 並木美太郎
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2013-ARC-205, no.7, pp.1-8, 2013-04-18

マルチコアプロセッサを用いた組込み向けハードウェアの性能向上において,リアルタイム処理と IT システムを並列動作させる要求が高まっている.本発表では,マルチコアプロセッサ上の VMM である Optimus Virtual Machine (OVM) を提案する.OVM では,リアルタイム制約のない汎用 OS,ソフトリアルタイムの OS,ハードリアルタイムの OS ないし OS のないハードウェアを直接制御するプログラムの三種類のパラダイムに対して,EDF によるデッドラインスケジューリングによる VM,またはコア固定による最高優先度の VM などを VMM で管理することにより,異種のリアルタイムに対する要求を適切に調停する.本 VMM を ARM マルチコアプロセッサをハードコアとして有する Xilinx 社の Zynq 上に実装し,遅延やオーバーヘッドを抑えつつ動作することを検証できた.今後の課題として,VM のメモリ管理が挙げられる.
著者
井手上慶 河村慎二 津邑公暁
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-212, no.1, pp.1-9, 2014-09-29

スマートフォンなどの普及に伴い,ガベージコレクション (GC) の性能が与える影響範囲が拡大している.一方,GC は主にアルゴリズム面で改良がなされてきたが,GC 実行時のレスポンス低下など,重要な問題の根本的解決には未だ至っていない.これに対し我々は,ハードウェア支援により GC を高速化する手法をこれまでにいくつか提案しており,その有用性について検討してきた.本稿では,まず我々が提案している二つの手法を取り上げ,それぞれ評価結果を示すとともにその有用性について述べる.これらの手法はいずれも,GC における基本的な構成処理要素に着目し,その高速化を図るものである.その後,現在我々が取り組んでいるハードウェア支援を用いたコンパクション機能について述べる.コンパクション機能を実装している既存の GC アルゴリズムはいくつか存在しているが,オブジェクトの移動時には当該オブジェクトを参照しているポインタを張り替える必要があり,これは一般にコストが比較的大きい.そこで本手法では,オブジェクト間の参照関係を記憶する専用の表をプロセッサに追加し,これを利用することで高速なポインタの書き換え,およびコンパクション機能の実現を目指す.そして最後に,この手法により期待される効果について考察する.
著者
南 一生 井上 俊介 千葉 修一 横川 三津夫
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014, no.30, pp.1-9, 2014-12-02

プログラムの実行性能限界を見積もるために,プロセッサのピーク性能,メモリバンド幅,Operational Intensity(Flop/Byte) をパラメータとしたルーフラインモデルが提案されている.ルーフラインモデルは,メモリネックのプログラムの場合に見積り性能と実測性能が良く一致するが,キャッシュアクセスが増えてくると,見積り性能と実測性能が乖離してくる.本報告では,キャッシュアクセスが増大するカーネルプログラムに対し,コーディングに基づく実行性能の見積もり方法を提案する.また,いくつかのカーネルループに対し,スーパーコンピュータ 「京」 上の実行性能の評価を行った結果,本方法が実効性能見積もりに適用できることを明らかにした.The Roofline models have been proposed in order to estimate the marginal performance of programs based on some features of computer systems such as peak performance, memory bandwidth, and operational intensity. The estimated performance by the model is in good agreement with the measured performance in the case that programs access memory devices directly. However, a difference between the estimated performance and the measured performance appears in the case that cache accesses of the program increase. In this paper, we extended the roofline model to a new one which can apply to a performance estimation of programs in which many cache accesses occur. It is shown that the new model can estimate the sustained performance of various kernel loops on the K computer by comparing with measured performance.
著者
大野 有輝 菅谷 みどり 秋岡 明香 中島 達夫
出版者
情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.5, pp.1-10, 2010-04-14

近年,CPU のマルチコア化によって処理能力を向上させる手法が一般的になっている.しかしながらマルチコア環境では,共有資源におけるリソースの競合による処理性能低下の問題がある.本研究では,プロセスの動作予測の結果から,実行コアの割当を決めることで,アプリケーションの処理性能を向上させる SPLiT (Scalable Performance Library Tool) を提案する.SPLiT は,(1) PMU (Performance Monitoring Unit) を用いたハードウェアの性能データの収集,(2) アプリケーションの処理に関する情報を元に動作予測を行うシステムを提供する.本研究では,SPLiT システムを Linux 上に実装し,Apache と MySQL に SPLiT lib を組込むことで,ウェブアプリケーションの最適化を行った.評価では必要な開発コストを最小におさえ,Web アプリケーションの性能を最大で 26% 向上させたことを示した.Recently, multicore processors have become populer, however, the concurrent execution with multicore processors causes resource contentions that can turn into a performance bottleneck. In this research, we present SPLiT (Scalable Performance Library Tool) which optimizes resource assignment by predicting processes behaviors. SPLiT collects the performance data in the kernel with PMU (Performance Monitoring Unit) and in processes of applications through the API of its library. With the result of prediction, it assigns CPU cores to each process and improves usage efficiency and caches. We implemented SPLiT on Linux, built its library into Apache and MySQL for the optimization of web applications, and evaluated its performance. The result shows SPLiT can improve the performance up to 26% without the development cost of applying SPLiT lib.
著者
中塚裕志 池田貴一 吉瀬謙二
出版者
一般社団法人情報処理学会
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014, no.5, pp.1-2, 2014-01-16

一般に,動作周波数は,パイプライン段数を増やすことで向上させることができる.FPGA は再構成可能な LSI であるがゆえに,ロジックとフリップフロップの接続に制限がある.我々は,この制限に着目し,パイプラインステージを決定することで,コンテストで配布された汎用プロセッサのデザインの動作周波数の向上を図る.
著者
橋本高志良 井出源基 山田遼平 堀場匠一朗 津邑公暁
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-208, no.22, pp.1-8, 2014-01-16

マルチコア環境では,一般的にロックを用いて共有変数へのアクセスを調停する.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これに代わる並行性制御機構としてトランザクショナルメモリが提案されている.この機構のハードウェア実装であるハードウェアトランザクショナルメモリ (HTM) では,アクセス競合が発生しない限りトランザクションが投機的に実行される.しかし,共有変数に対する複合操作が行われるようなトランザクションが並行実行された場合,その際に発生するストールが完全に無駄となる場合がある.本稿では,このような同一の共有変数に対する Read→Write の順序でのアクセスを検出し,それに関与するトランザクションを排他実行することで,HTM の全体性能を向上させる手法を提案する.シミュレーションによる評価の結果,提案手法により 16 スレッド実行時において最大 72.2%,平均 17.5%の性能向上を達成した.