著者
Balazs Gerofi Hajime Fujita Yutaka Ishikawa
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.3, no.1, pp.1-12, 2010-03-16

Single IP Address cluster offers a transparent view of a cluster of machines as if they were a single computer on the network. In such an environment, process migration can play a significant role for providing services seamlessly and for increasing sustainability. In this paper we propose a live migration mechanism which is capable of moving processes that maintain a massive amount of network connections, supporting both TCP and UDP sockets. Incoming packet loss during socket migration is prevented by exploiting the broadcast property of the Single IP Address cluster, while process live migration minimizes the execution freeze time during the actual migration of the process context. Performance evaluation on machines equipped with a 2.4 GHz CPU and Gigabit Ethernet interconnect shows that migrating a process of 1GB image size and over 1000 established network connections results in less than 200 ms process freeze time, rendering the transition fully transparent and responsive from the clients' point of view. The implementation is comprised entirely of a kernel module for Linux 2.6, without any changes to the existing kernel code.
著者
似鳥 啓吾 牧野 淳一郎 阿部 譲司
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.SIG8(ACS18), pp.54-61, 2007-05-15

本論文では,400個のデュアルコアOpteronプロセッサを用いたCray XD1システム上での高性能な N体シミュレーションコードの実装と,64k粒子の星団のシミュレーションでの性能について述べる.これまでにも多くの天体物理学的 $N$ 体計算の並列化が報告されているが.その中でも数十プロセッサ以上を用いた実装の性能評価には,大きな粒子数が使われる傾向がある.たとえば,これまでのゴードン・ベル賞へのエントリでは,少なくとも70万粒子が用いられている.この傾向の理由は,並列化効率にある.というのも,大規模並列機で小さな粒子数で性能を出すのは非常に困難であるからである.しかしながら,多くの科学的に重要な問題では計算コストは O(N^3.3) に比例するため,比較的小さな粒子数の計算に大規模並列計算機を用いることが非常に重要である.我々は,64k粒子のO(N^2)直接計算独立時間刻み法の計算で2.03Tflops(対ピーク57.7%)の性能を実現した.これまでの64k粒子での同様の計算における最大の効率は,128プロセッサのCray T3E-900での7.8%(9Gflops)である.今回の実装では従来の方法より高スケーラブルな2次元並列アルゴリズムを用いている.さらに今回のような高性能を達成するためにはCray XD1の低レイテンシネットワークが本質的に重要であった.
著者
清水 敏行 建部修見 工藤 知宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.6, pp.23-34, 2004-05-15

最近のクラスタ向け計算機,とりわけラックマウント型では,限られた容積に多くの機器が実装されているため,それを冷却するファンの振動によってHDD等のデータ転送性能が低下する問題が生じていることが分かった.従来より外部からの振動によってHDD の転送性能が影響を受けることは知られていたが,我々の実験によりHDD の仕様以下の強さの振動であっても特定の周波数の振動が連続的に加わると20?90%の転送速度の低下が見られ,ときにはHDD が回復不能なダメージを被る場合があることが明らかとなった.本稿ではこの問題について紹介し,HDD の転送速度の周波数特性を詳細に調べることで原因の推定を試みる.またその結果をふまえて,解決の一手法について述べる.Performance of latest HDDs can be affected by the mechanical vibration of the cooling fan. This phenomenon is often observed in recent low height rack-mounted type computers, which have number of components in its limited capacity of the enclosure. The head positioning servo of latest HDD's are designed considering the effect of vibration. However, we found that the transfer rate of HDD is sometimes degraded by the continuous vibration even when the magnitude of the vibration is smaller than the specified allowance. Moreover, such vibration cause an unrecoverable damage in some cases. This paper introduces such phenomena, and tries to investigate the cause of the phenomena by analyzing frequency response characteristics of the HDD transfer rate in detail. This paper also discusses ways to avoid these problems.
著者
堀内 美希 田浦 健次朗
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.5, no.5, pp.128-137, 2012-10-15

分散環境でデータ集約的計算を行う際に重要な役割を果たす分散ファイルシステムであるが,高遅延環境でのファイルアクセスでは遅延の影響を受け,大幅にスループットが下がってしまうことがある.それを回避するために,アプリケーションに変更を加えず適応的に実行可能なアクセスデータの先読み手法を提案する.提案手法により,評価に用いた高遅延広帯域環境下でのファイルアクセスでは,シーケンシャルアクセスで約 700~800%, ストライドアクセスで約 300~400% の読み込みスループット向上を確認することができた.Distributed file systems play an important role for data intensive computation but current systems often fail to achieve good throughputs in high latency environments. To achieve a good access throughput, we propose a data prefetching method that can be adatively applicable without any modification to applications. In the evaluation environment with high latency and wide bandwidth, the proposed method achieved the "read" performance improvement of around 700 ~ 800% in sequential access and of around 300 ~ 400% in stride access.
著者
滝田 裕 多田 好克
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.47, no.3, pp.16-26, 2006-03-15
被引用文献数
1

近年のストレージ技術の進歩により,個人用計算機でも大量のファイルが蓄積できるようになった.Unix のファイルシステムではファイルの名前を木構造で階層化して管理しているが,このような状況では名前によるファイルの特定がだんだん困難になってきている.そこで最近ではファイルの名前を特定するために,全文検索エンジンを用いたファイルの内容検索を行うことが多い.我々は全文検索エンジンによる検索機能をファイルシステムに統合し,従来の木構造のファイル名だけではなくファイル内容に基づくファイル名の両方が使用できるファイルシステムを開発した.このファイルシステムでは特殊なキーワードをともなうディレクトリを検索キーワードと見なして検索式を生成し,全文検索エンジンによる検索を行う.検索結果はその場で生成されるディレクトリ内のシンボリックリンクとして表現される.また,検索インデックスはファイルの書き込み時に自動的に更新され,つねに最新の内容に基づいた検索が行われる.本システムはファイル参照を行うすべてのプログラムに対して,改変をいっさい行うことなく検索機能を提供できる.これを用いることで対話的なシェル上での内容によるインクリメンタルなファイルの絞り込みが可能になる.A personal computer came to be able to accumulate large amount of files by the advancement of the storage technology in recent years. The name of the file is hierarchized by the tree structure and managed in the filesystem of Unix. The file identification by the name gradually becomes difficult in such a situation. So recently, we often retrieve the file by content by means of a full-text search engine. We integrated the search function with a full-text search engine into the filesystem, and developed the filesystem for which not only the traditional tree structured file name but also the content of the file can be used. In this filesystem, the directory which name includes the special keyword regards as search keyword, and the search query which used by full-text search engine is generated by using such keywords. The search result is expressed as a symbolic link in a temporally generated directory. The search index is automatically updated at the time of writing the file, and we can always search the file by the latest content. This system can offer the search function with no modifications of any programs that access files at all. This system also provides incremental file narrowing by the contents on an interactive shell.
著者
須田 礼仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.47, no.18, pp.92-114, 2006-11-15
被引用文献数
8

高速ネットワークの普及にともない,ヘテロな計算機から構成されるネットワーク計算環境が現出しており,ヘテロ並列計算環境に適した並列化手法の必要性が高まっている.本稿ではタスク並列パラダイムにおける主要な問題であるスケジューリングアルゴリズムについて,ヘテロ並列計算環境に関した研究のサーベイを行う.大規模アプリケーションを想定して目的関数をスケジュール長(makespan)に絞るが,divisible load theoryやマルチプロセッサタスクも含める.Network computing environments with heterogeneous computers have emerged as results of speedups of computer networks, and needs of parallelization technologies for heterogeneous parallel computing environments are increasing. This paper surveys scheduling algorithms, which are the major issue of parallelization in the task parallel paradigm, for heterogeneous parallel computing environments. The objective is limited to the schedule length (makespan) assuming large scale applications, but divisible load theory and multiprocessor task are included.
著者
青木 秀貴 中村 友洋 助川 直伸 齋藤 拡二 深川 正一 中川 八穂子 五百木 伸洋
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.46, no.SIG12(ACS11), pp.27-36, 2005-08-15

科学技術計算をターゲットとするスーパーテクニカルサーバSR11000 モデルJ1 を開発した.POWER5 を16CPU 搭載するSR11000 モデルJ1 のノードは,理論ピーク演算性能121.6GFLOPSを有し,協調型マイクロプロセッサ(COMPAS)と呼ぶノード内並列処理方式と,擬似ベクトル処理(PVP)によるメモリアクセスを含めたパイプライン処理により,単一の高性能なプロセッシングエレメントとして利用できる.本稿では,COMPAS とPVP を可能とするSR11000 モデルJ1 のノードアーキテクチャを紹介するとともに,ノード性能の評価結果について述べる.
著者
佐藤 孝治 小西 隆介 木原 誠司 天海 良治 盛合 敏
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.2, no.1, pp.110-122, 2009-03-25

本論文では,ログ構造化ファイルシステムNILFSの設計と実装について述べる.NILFSは任意の時点におけるファイルシステムのスナップショットを作成することができ,ソフトウェア障害やユーザエラーからデータを保護する.また,ディスク上のデータ構造はつねに一貫した状態に保たれるため,システム障害後の迅速な復旧が可能である.従来のログ構造化ファイルシステムとは異なり,ディスクアドレス変換を用いることにより,複数のスナップショットが存在する状況で,クリーナは不要になったディスク領域を効率的に回収することができる.評価実験により,NILFSはExt3と比べて遜色ない性能を有することを示す.
著者
小磯 知之 阿部 洋丈 池嶋 俊 石川 宗寿 リチャードポッター 加藤 和彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.3, pp.13-26, 2007-02-15
被引用文献数
4

本論文では,大規模障害を含めた様々な障害を自律的に乗り越えて持続可能な(サステーナブルな)サービスを実現するための基盤ツールキットの設計について述べる.本方式は,多数の計算機を連合させ,それらにサービスの実行とサーバ機能の状態保存を自律的に分担させることでサービスのサステーナブル化を実現する.また,本提案方式は,仮想計算機を用いることで,既存のサービスを容易にサステーナブルにすることを可能にしている.In this paper, we describe our design of an infrastructure toolkit for realizing sustainable services, which can surmount various kinds of failures, including catastrophe. Our system consists of many federating computers. It enables the service to be sustained by making some of the computers run server functions, and the others share storing states of the service. And also our method is designed to be applicable for existing services by using virtual machines.
著者
永井 貴博 吉田 仁 黒田 久泰 金田 康正
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.SIG13(ACS19), pp.214-222, 2007-08-15

並列計算機の性能向上や数値計算法の進展は,大規模科学技術計算における大きな鍵となっている。特に浮動小数点数における演算においては、計算規模が増すに従ってより多くの計算量を必要とし、計算誤差も増大する。そのために、倍精度演算より有効桁数が多い 4 倍精度演算の必要性が高まってきており注目されている。4 倍精度数の表現には、倍精度浮動小数点数を 2 つ用いて表される 128 ビットデータ型があるが、SR11000 モデル J2 上の Hitachi 最適化コンパイラにおいて、4 倍精度演算は 2 つの倍精度データ型を用いてソフトウェアによって実現されており、倍精度演算に比べより多くの計算回数を必要とする。そこで本研究では、SR11000 モデル J2 上の Hitachi 最適化コンパイラを用いて 4 倍精度演算を定量的に解析し、FMA 命令 (Fused Multiply-Add) を用いて演算回数を削減することによって高速化を行い、最大で約 1.5 倍の高速な 4 倍精度積和演算を実現した。
著者
木原 崇智 多田野 寛人 櫻井 鉄也
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.1, no.1, pp.51-60, 2008-06-26

大規模非エルミート疎行列を持つ線形方程式Ax = bの効率的な解法として,前処理つきKrylov部分空間反復法がある.同反復法は前処理部分に多くの計算時間を要する場合が多い.精度混合型Krylov部分空間反復法は,前処理演算を単精度で行っても最終的に倍精度の解が得られる方法である.多項式前処理を適用した場合には,前処理は行列ベクトル積の繰返しで得られる.一方,Cell Broadband Engineは単精度演算においてきわめて高い演算性能を持つマルチコアプロセッサである.本論文では,Cell Broadband Engine上での単精度行列ベクトル積の実装方法とその高速化手法について示し,精度混合型Krylov部分空間反復法をCell Broadband Engine上で実装する場合の性能を,数値実験により評価する.
著者
吉田 健二 齋藤 彰一 毛利 公一 松尾 啓志
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.7, no.2, pp.11-24, 2014-05-15

オペレーティングシステム(OS)には高い耐障害性が求められる.しかし,耐障害性を向上させる既存手法は,専用ハードウェアや大きな実行時オーバヘッドが随伴するという問題がある.我々はOSを計算機上に複数動作させてアクティブ/バックアップ構成を組み,プロセスとファイルキャッシュを保護する耐障害性向上手法を提案する.本提案手法では,保護するデータは障害発生後に取得することで事前の実行状態保存による実行時オーバヘッドをゼロに抑えることができる.また,提案手法を実現するために必要となるリソースはCPU 1コアと少量のメモリ領域のみである.本提案手法を実装した結果,リカバリの時間は最短で0.4秒,2GB程度のデータの復元が必要となった場合でも10秒程度であることを確認した.また,テキストエディタ,NFSサーバ,データベースサーバ,HTTPサーバで障害を発生させた場合の停止時間は最長1.5秒であった.
著者
廣川 祐太 朴 泰祐 佐藤 駿丞 矢花 一浩
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.9, no.4, pp.1-14, 2016-11-17

近年,Intel Xeon Phiなどメニーコアプロセッサを搭載したPCクラスタが運用されているが,同プロセッサの性能特性から実アプリケーションにおいて高い性能を得るのは非常に困難である.本研究では,電子動力学シミュレータARTEDでの支配的な計算である波数空間と軌道に関して並列化された3次元実空間格子の25点ステンシル計算を,メニーコアプロセッサに対し最適化することを目的とする.まず,元のターゲットシステムである京コンピュータ(SPARC64 VIIIfx)に対し最適化を行い,コンパイラによる自動ベクトル化を促進することで14.94GFLOPSから27.2GFLOPSに性能が向上した.この実装を用いて,メニーコアプロセッサのIntel Xeon Phi(Knights Corner)を対象に,自動ベクトル化とIntrinsicsを用いた手動ベクトル化による最適化を行った.元実装が30.06GFLOPSであるのに対し,手動ベクトル化実装で224.45GFLOPSと20.9%のピーク演算性能比を達成した.また,次世代プロセッサのKnights Landingへの実装などについても考察する.
著者
青山 健人 角田 将典 松崎 由理 石田 貴士 秋山 泰
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.9, no.2, pp.15-33, 2016-07-14

近年,次世代シーケンサなどに代表される実験技術の向上による爆発的な生物学データの増加に対応するため,スーパーコンピュータを用いた効率的なデータ解析,処理技術の開発は喫緊の課題となっている.ゲノム情報のうちタンパク質に翻訳されるエクソン領域の配列のみを網羅的に解析するエクソーム解析は,ゲノム配列全体を対象とする場合と比べて処理量は大幅に削減されるため効率的な解析が可能となるが,一方で将来の個別化医療に向けた解析では,数百人から千人規模のデータを現実的な時間で処理する必要があり,小型のPCクラスタでは処理が追いつかない大規模な解析が必要である.本研究では,理化学研究所のスーパーコンピュータ「京」上にエクソーム解析パイプラインを開発し,大規模エクソーム解析を目的とした生命情報解析環境を構築した.「京」上で実際に動作するエクソーム解析パイプラインの構築に加え,パイプラインの各処理でMPIによるMaster-Workerモデルでタスク分散処理を行うことで投入ジョブ数を軽減し,さらにタスクの分割などを改良することで,並列性能を改善して処理の高速化を図った.
著者
追川 修一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.8, no.1, pp.1-11, 2015-03-26

計算機が高性能化し,またクラウドコンピューティングが普及するにともない,オペレーティングシステム(OS)が仮想化環境で使われることが多くなっている.仮想化環境では,仮想マシン(VM)がOSを実行する.VMは仮想化環境が定義するものであるが,実機上で動作するOSをそのまま実行できる実機に相当するVM,そしてOSとVMが連携することで処理を軽量化するVMが,これまで提供されてきた.しかしながら,OSの構造,およびVMがOSに提供するインタフェースは,実機上で動作するOSのものから大きく変更されることはなかった.本論文では,VMが実行するOSの軽量化を目的とし,VMがOSに提供するインタフェースを変更するかたちでのストレージ仮想化手法について述べる.提案手法を,LinuxをホストOSとして用いるKVMに実装した.実験結果から,従来手法と比較して,提案手法はアクセスを高速化できることが分かった.As the performance of computing platforms becomes higher and cloud computing becomes popular, it is common to execute operating systems (OSes) on virtualized environments. Such virtualized environments employ a virtual machine (VM) to execute an OS. While VMs can be defined by virtualized environments, they are defined to be the same as or similar to real hardware; thus, their interface to OSes also remain mostly unchanged. This paper describes a storage virtualization method that changes the VM's storage interface in order to make guest OSes lightweight. We implemented the proposed method in KVM, which utilizes Linux as its host OS. The evaluation results show that the method can improve the data access by comparing with the existing method.
著者
菱沼 利彰 藤井 昭宏 田中 輝雄 長谷川 秀彦
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.7, no.4, pp.25-33, 2014-12-16

高精度演算を用いることでKrylov部分空間法の収束を改善できるが,高精度演算はコストが高いことが知られている.高精度演算の1つに,倍精度を2つ組み合わせて4倍精度演算を行う倍々精度演算がある.我々は,IntelのSIMD拡張命令であるAVX2を用いてBCRS形式の倍精度疎行列と倍々精度ベクトルの積(DD-SpMV)の高速化を行った.AVX2を用いたCRS形式のDD-SpMVでは,各行で端数処理などを必要とするが,BCRS形式は端数処理をなくし,メモリアクセスを改善できる.しかし,BCRS形式は演算量が増加する.本論文では,AVX2に適したBCRS形式のブロックサイズと,増加した演算量と端数処理の削減,メモリアクセスの改善効果のトレードオフについて示した.実験の結果,AVX2に最も適したブロックサイズは4×1であることが分かった.また,メモリアクセスの改善効果はサイズの大きい問題ほど有効で,行列サイズが10 5以上のとき,演算量が3.3倍以上になるケースにおいても,BCRS4×1にすることでCRS形式の実行時間を約45%に短縮できることを確認した.
著者
白子 準 吉田 宗弘 押山 直人 和田 康孝 中野 浩史 鹿野 裕明 木村 啓二 笠原 博徳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.47, no.12, pp.147-158, 2006-09-15
参考文献数
27
被引用文献数
11

半導体集積度の向上にともなう消費電力の増大,集積トランジスタ数の増化に対する処理性能向上の鈍化に対処するため,チップ上に複数のプロセッサを集積するマルチコアアーキテクチャ(チップマルチプロセッサ)が大きな注目を集めている.このようなマルチコアアーキテクチャの能力を最大限に引き出し,高実効性能・低消費電力を達成するためには,プログラムの適切な並列化に加えチップ上のリソースのきめ細かな電圧・動作周波数制御を実現するコンパイラが必要不可欠である.本論文では,各プロセッサコアが等価であるOSCARタイプのマルチコアプロセッサにおいて,各プロセッサの電源のON/OFF・周波数電圧制御(FV制御)をマルチグレイン並列化環境下でコンパイラが適切に判断し低消費電力化を行うコンパイル手法を提案する.提案手法を実装したOSCARコンパイラにより,科学技術計算とマルチメディアアプリケーションに対する評価を行った結果,SPEC CFP95 appluにおいて4プロセッサ使用時に最小実行時間を維持したまま60.7%の消費エネルギー削減,MPEG2エンコーダにおいて4プロセッサ使用時にデッドライン制約を保証したまま82.7%の消費エネルギー削減が達成された.A chip multiprocessor architecture has attracted much attention to achieve high effective performance and to save the power consumption, with the increase of transistors integrated onto a chip. To this end, the compiler is required not only to parallelize program effectively, but also to control the volatage and clock frequency of computing resources carefully. This paper proposes a power saving compiling scheme with the multigrain parallel processing environment that controls Voltage/Frequency and power supply of each core on the multiprocessor. In the evaluation, OSCAR compiler with the proposed scheme achieves 60.7 percent energy savings for SPEC CFP95 applu using 4 processors without performance degradation, and 82.7 percent energy savings for MPEG2 encoder using 4 processors added deadline constraint.
著者
相川 拓也 杉木 章義 加藤 和彦
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.5, no.5, pp.138-151, 2012-10-15

サーバのチューニングは,性能を左右する重要なタスクである一方で,管理者にとって困難をともなう.パラメータの最適値は多くの場合, 1 回のチューニングでは求まらず,さまざまな試行錯誤を行う必要がある.また, 1 回の試行においても,サーバの設定を変更するだけではなく,複数台からなるクライアントの設定を変更し,起動するなど,煩雑な手続きが必要である.本研究では,このチューニングにおける試行錯誤の過程を効率化するスクリプティング環境を提案する.本提案では,サーバやクライアントなどチューニングに関連する要素をすべて分散オブジェクト化し,統一的な環境で高水準に試行の過程を記述可能とする.また,自動チューニングアルゴリズムのライブラリ化を行うことで,利便性の向上を図る.実験では, SPECweb2005 ベンチマーク下の Apache ウェブサーバと Hadoop を対象として実験を行い,本環境を利用してチューニングができることを確認した.Although parameter tuning is critical for server performance, that tuning process is error-prone and time consuming. An administrator must repeat many iterations to find an optimal configuration and even at each step non-trivial tasks, including proper configuration of a server and launching benchmark clients, are required. In this paper, we present a scripting environment for efficiently describing such tuning process. We offer distributed objects as ways to manipulate a server and benchmark clients. By this way, tuning process can be described by scripting them in an integrated environment. We also provide automatic tuning as a library for further efficiency. In the experiments, we confirmed that tuning of an Apache web server under SPECweb2005 benchmark and a Hadoop cluster were successfully possible in our tuning environment.
著者
橋本 高志良 堀場 匠一朗 江藤 正通 津邑 公暁 松尾 啓志
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.6, no.4, pp.58-71, 2013-10-30

マルチコア環境では,一般的にロックを用いて共有変数へのアクセスを調停する.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これに代わる並行性制御機構としてトランザクショナル・メモリが提案されている.この機構においては,アクセス競合が発生しない限りトランザクションが投機的に実行されるため,一般にロックよりも並列性が向上する.しかし,Read-after-Readアクセスが発生した際に投機実行を継続した場合,その後に発生するストールが完全に無駄となる場合がある.本稿では,このような問題を引き起こすRead-after-Readアクセスを検出し,それに関与するトランザクションをあえて逐次実行することで,全体性能を向上させる手法を提案する.シミュレーションによる評価の結果,提案手法により16スレッド並列実行時において最大53.6%,平均15.6%の高速化が得られることを確認した.
著者
伊藤 正勝 長嶋 雲兵
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.6, pp.234-243, 2004-05-15

生体分子のシミュレーションを開発する際には,正確な熱力学量を求めるための膨大な計算コストと,対象系に合わせて多様なシミュレーションプログラムを開発する煩雑さが問題となる.これに対し,我々は,レプリカ交換分子動力学法に基づいてシミュレーションを並列化し,計算時間を短縮するためのツールキット(REMD toolkit)を開発した.また,対象系に応じて,サンプリング方法,ポテンシャルエネルギー関数などの組合せを変えることができるように,ツールキットをカスタマイズ可能なソフトウェアコンポーネントの集まりとして設計した.これにより,様々なシミュレーション機能が,ツールキットが提供するコンポーネントと,外部プログラムに由来するコンポーネントの組合せとして実現される.ツールキットを検証するために,原子クラスタAr13,オリゴペプチド(Ala)10といったモデルケースのそれぞれについて,プログラムを生成し,実行した.この結果,レプリカ数の増加により総計算量は圧縮され,さらに並列化によって計算時間はCPU数に反比例して短縮されることが確認された.We have developed a toolkit to generate a replica-exchange molecular dynamics program which accelerates the estimation of thermodynamical quantities. The toolkit is designed as a set of software components, so that any new variant of simulation program can be built by assembling suitable components. They are categorized according to three types of customizations : (1) parallelization of simulation programs, (2) selection of structure sampling method, and (3) incorporation of an arbitrary force field implementation into the program. The extensibility of the toolkit is demonstrated by generating new variants of replica-exchange molecular dynamics programs, and the efficiency of the generated programs is examined in the heat capacity estimation of Ar13 and (Ala)10. It is shown that the replica-exchange scheme not only reduces the total computational cost with the increase in the number of replicas but achieves almost linear-speedup with the number of CPUs.