著者
川田 宗太郎 廣瀬 明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.20, pp.1-6, 2004-03-01

従来の電子プロセッサは、電子回路によって処理速度が支配されており、また低周波帯域では周波数多重化のメリットも少ない。我々は、光波のコヒーレンスに着目する新しい概念の光プロセッサを提案する。光波を用いるため原理上処理速度が速く、波長多重による回路の並列化も可能である。そのプロセッサの基本素子となる周波数依存の学習論理回路の光学実験を行った。半導体レーザを用いた光学系を構築し、ある周波数でANDゲート、別の周波数でXORゲートとしての出力結果を得るように学習を行った。その結果、理論値に近い良好な出力を得た。この光プロセッサは、空間光変調器が作る微小光路差によって論理機能が実現される。これを利用した動的な機能ユニットも提案する。We propose an adaptive logic circuit whose function can be controlled by carrier frequency modulation. The circuit learns desirable functions adaptively by complex-valued Hebbian rule. After the learning, the circuit can switch its function all at once by changing the delay time at a spatial light modulator. A high mechanical stability is realized by a spatial phase-difference coding. Two-orthogonal phase components are detected in parallel spatially. An experiment demonstrates that the system works as an AND circuit at a certain frequency and as an XOR at another. We also propose a processor named "coherent optocal processor" based on the logic circuit and present its application to multiplexed adaptive functional units.
著者
成瀬 彰 住元 真司 久門 耕一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.99, pp.49-54, 2008-10-08
被引用文献数
2

本稿では メモリバンド幅ネックの流体アプリケーションを GPGPU 上で高速化する手法について述べる。 GPGPU としては CUDA 対応 GPU を対象とした。各種メモリアクセス性能調査結果より、安定して高いメモリバンド幅を実現するには、スレッド進行の同期化、アクセスパターンの局所化、スレッド数の最適化が重要であることが分かった。これに基づいて姫野ベンチマークを高速化した結果、 GeForce GTX 280 上で 69.7 GFLOPS の性能を達成した。これは従来実装と比べて 1.69 倍の性能であり、この性能達成時には 115 GB/s の実効メモリバンド幅が出ていたことを意味する。これは理論ピークメモリバンド幅の 81% に相当する。We present the acceleration technique of CFD (Computational Fluid Dynamics) on GPGPU, that needs high memory bandwidth. The memory bandwidth and latency of GPU are measured on various conditions, and it is clarified that following techniques are required to achieve high memory bandwidth on GPU: synchronization among threads, locality of memory accesses and appropriate number of threads. We've applied these techniques to Himeno benchmark program which is the kernel routine of CFD. Our accelerated code runs 69% faster than the existing implementation and attains 69.7 GFLOPS on GeForce GTX280, that corresponds to 115 GB/s in memory bandwidth.
著者
張臨傑 渡邉 慶太郎 野寺 隆
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.80, pp.145-150, 2007-08-02

大規模で非対称な係数行列を持つ連立1次方程式の近似解法には、クリロフ部分空間に基づく様々な反復解法が存在する。通常、このような反復法の収束を向上させるためには、方程式の前処理を利用することになる。近年、大規模な係数行列の前処理として、近似逆行列を用いる場合が増えている。本稿では部分構造法の観点に立ち、グラフ分割を利用して係数行列を再構成し、部分行列の計算に AISM 法 [SIAM J. Sci. Comput. Vol. 25 No. 2 pp. 701-715 (2003)] による近似逆行列の応用を考える。さらに、シュールコンプリメント計算における速度向上を解析し、それを予測する手法を提案する。最後に、算法の実装を行い、数値実験により提案した手法の有効性を示す。There are lots of Krylov subspace iterative methods for the approximate solution of large sparse nonsymmetric linear systems of equations. To solve the large linear systems, we can usually apply an iterative method on the preconditioned equation to improve the convergence of iterative method. In recently, approximate inverse strategies are useful for the preconditioning of iterative method, for solving the large linear systems. In this paper, we make the computation strategy using Schur-complement from the view of substructure, using graph partitioning. We consider to apply AISM method [SIAM J. Sci. Comput., Vol. 25, No. 2, pp. 701-715 (2003)] on the derived sub-matrices. We also analyze its Speed-Up in detail and give a way for predicting the Speed-Up. At last, we implement the proposed algorithm and also show numerical experiments for sufficiently large problem.
著者
松岡 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.37-42, 2006-07-31
被引用文献数
7

TSUBAME (Tokyo-tech Supercomputer and Ubiquitously Accessible Mass-storage Environment)は、アクセラレータ部分を含めると100TFlops近いピーク性能・20TByte以上のメモリ・Fat Nodeおよび高速な間接網を基本とした共有メモリスパコン形アーキテクチャ・並びに1PByte以上のオンラインストレッジを備え、2006年春の時点で、あらゆるパラメタで現在わが国最高性能・最大規模の新型スパコンとして東工大・学術国際情報センターに構築された。TSUBAMEは従来の専用スパコンとPCクラスタ両者の利点を兼ね備え、かつそれぞれの欠点を補うマシンとして設計されており、スパコンとしての柔軟かつ強力なハイエンドの大規模並列計算やデータ処理の能力と、エンドユーザのデスクトップ・ノートブックやPCクラスタ環境との高い親和性との両立を実現している。これらを同時に満たすことが、TSUBAMEが標榜する「みんなのスパコン」であり、現代のIT環境にシームレスに接合して様々なサービスを提供する源となって、大学における教育・研究アーカイブなどの教育研究業務・メイルや事務処理などの統合的なホスティングを行い、将来の計算科学の人材を多数育むものとなる。TSUBAME (Tokyo-tech Supercomputer and Ubiquitously Accessible Mass-storage Environment) is a new supercomputer being hosted at the Global Scientific Information and Computing Center (GSIC), Tokyo Institute of Technology, sporting nearly 100 TFlops of compute power, over 20 TBytes of memory, fat node / shared memory architecture and fast interconnect, and over 1 PBytes of online storage, making it the fastest and the largest supercomputer in Japan. At the same time TSUBAME embodies the benefit of PC-based x86 ecosystem, allowing coexistence of high-end capability computing and synergy to user's PC-based desktop environment. As such TSUBAME can be regarded as "Everybody's Supercomputer", allowing unified hosting of various services including educational, office, as well as high-end supercomputing, becoming the bases of incubating numerous computational scientists of the future.
著者
山崎 真矢 本多 弘樹 弓場 敏嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.1998, no.93, pp.79-84, 1998-10-09
被引用文献数
5

本稿では,マルチスレッドプロセッサのキャッシュ構成として,各スレッドで使用できるキャッシュラインをスレッド処理数に応じて制限する動的スレッドアソシアティブ(Dynamically Thread-Associative)方式を提案する。提案する方式は,従来のセットアソシアティブ方式の置き換え動作を変更することによってキャッシュ内にスレッド専用領域を確保することで,複数のスレッド間での干渉によって起こるキャッシュミスを低減することが期待できる。シミュレータを用いて提案する方式の予備的評価を行った結果,提案する方式により複数スレッド間での干渉を低減できることがわかった。We present a new replacement algorithm in set-associative cache adapted to multithread architecture. By restricting the replacement candidate blocks to the sub-set in a set that exclusively assigned to each thread, the cache miss rate caused by the interference among threads can be kept low. The paper also shows the result of the preliminary measurements on the cache simulator.
著者
平山 弘
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.1997, no.21, pp.27-32, 1997-03-06

二つの高精度数の乗算には、FFTを使うと効率的に計算できることが知られている。この計算には、通常の倍精度実数を使う。そのため、打ち切り誤差の影響を受ける。本論文では、この打ち切り誤差を調べ、この方法が使える範囲を解析的、数値的方法で求めた。この領域は、僅かな浮動小数点の形式の違いで、すなわち、計算機の違いで、大きく変化することがわかる。It is well known that the multiplication of two high precision numbers can be very effectively by using FFT. This method can be carried on double precision floating-point numbers. In this methods, the calculation can not avoid truncation errors. We must investigate this errors for using of the FFT algorithm. In this paper, this errors are considered by analytical and numerical methods and gives applicable range of the FFT algorithm. These range change very much whtn slightly difference of floating-point number format.
著者
中田 秀基 竹房 あつ子 大久保 克彦 岸本 誠 工藤 知宏 田中 良夫 関口 智嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.20, pp.217-222, 2006-02-27
被引用文献数
2

グリッド上で複数の資源を同時に確保(コアロケーション)するには,各サイトにおける事前予約が不可欠である.現在計算資源の多くでは,プライオリティと First Come First Servedを組み合わせたスケジューリングポリシが用いられているが,このスケジューリングポリシと事前予約をどのように組み合わせるべきかに関しては,明らかになっていない.われわれは,この問題を検討する研究環境を整備することを目的とし,1) OpenPBSの亜種であるTORQUEのスケジューラモジュールを記述するためのAPIを整備し,2)これを用いて事前予約機能を持つスケジューラモジュールを実装した.さらにWSRFを用いた外部インターフェイスを実装し,Globus Toolkit Ver.4のGRAMと連動したグリッド環境での予約と実行を実現した.While advance reservation is an essential capability for co-allocating several resources on Grid environments, it is not obvious how it can be combined with priority-based First Come First Served scheduling, that is widely used as local scheduling policy today. To investigate this problem, we 1) developped Java API to implement scheduling modules for TORQUE, a variant of OpenPBS, 2) implemented a scheduler module that have advance reservation capability with the API. We also provide an external interface for the reservation capability based one WSRF. Using with job submission module from Globus toolkit 4, users can make reservation for resources and submit jobs over Grid.
著者
今村 俊幸 村松 一弘 北端 秀行 金子 勇 山岸 信寛 長谷川 幸弘 武宮 博 平山 俊雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.22, pp.49-54, 2001-03-08

世界各国の計算機資源のみならず様々なネットワーク上の装置を有機的に結合し,一つの仮想計算機システムを構築する試みとしてメタコンピューティングが提案されている.日本原子力研究所では,これまで所内LANでの仮想計算機上を構築し数値アプリケーションの実験を行ってきたが,さる2000年11月アメリカ,ダラスにて開催された国際会議SC2000期間中に日独米英4ヶ国のスパコンを結合して世界規模での実験の試みに成功した.本実験では,放射線情報推定システムを題材として世界5機関の並列計算機を利用し最大計510CPUの仮想計算機の構築並びに,仮想計算機上での計算を行った.また,計算と同時に仮想計算機から大気中に放出された放射性物質の拡散過程を可視化することも実施した.本報告では,世界規模での実アプリケーションの実験の概要とその結果についてまとめる.Metacomputing, which enables us to construct a virtual computer system with some computer resources or experimental devices via internet connection, was proposed. Japan Atomic Energy Research Institute, JAERI, also continued to carry out several numerical simulations on a virtual computer system even though it was restricted in the JAERI's LAN. At SC2000, we had an opportunity to construct a worldwide virtual supercomputer with help of several supercomputer centers at Germany, US, UK and Japan, and we succeeded to execute a "Quick responsible source estimation system" with 510 processor units on 5 sites. Furthermore we demonstrated a real-time visualization for the dispersion process of radioactive particles released into atmosphere. In this report, we summarized the result of worldwide metacomputing experiment.
著者
佐藤 仁 松岡 聡 遠藤 敏夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.74, pp.211-216, 2008-07-29

グリッドファイルシステムでの効率的な複製管理を実現するために,アクセス頻度や管理ポリシーに応じて,スループットやストレージ容量などの性能要件を満たし,かつ,複製時間が最小になるように複製配置を決定するアルゴリズムを提案する.この複製配置問題をスループットやストレージ容量などの性能要件や複製転送のコストの最小化を目的関数とする組合せ最適化問題に帰着し,ファイルアクセスをモニタリングすることに得られた情報を利用することにより解く.提案アルゴリズムをシミュレーションで評価した結果,複製作成を行わない手法,アクセス時に複製をキャッシュする手法, サイト毎に複製を持つ手法などの単純な複製管理手法と比較して,ストレージ使用量を低く保ちつつ,かつ,高いスループット性能を達成する複製配置を自動的に実現することを確認した.We propose an automated replication algorithm for a grid file system that considers file access frequency and replica maintenance policy, and that allows most of I/O accesses to be performed within given throughput and storage usage thresholds, while simultaneously minimizing replica transfer time. Our algorithm models the replication problem as a combinational optimization problem, where the constraints are derived from the given throughput and storage usage threshold, and various system parameters collected from direct file access monitoring. Our simulated-based studies suggest that the proposed algorithm can achieve higher performance than simple techniques, such as ones that always or never create replicas, while keeping storage usage very low. The results also indicate that the proposed algorithm can perform comparably with manual replica placement.
著者
佐藤 仁 松岡 聡 遠藤 敏夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.80, pp.109-114, 2007-08-02

グリッドファイルシステムでは、1) クライアントからある特定のノードやファイルへのアクセスに時間的局所性がありアクセスが集中する、2) ファイルシステム上のファイルへのアクセスが空間的に遠方に存在するノードへのアクセスとなる、などの要因によりファイルアクセス性能が低下することが問題となる。しかし、効率の良い大規模データ管理を実現するためにどのようにファイルをグリッドファイルシステムを構成する広域に分散したノードに配置すれば良いかの戦略を決定づけるメトリックは明らかではない。我々は、広域に分散した 5 サイトからなる HPC クラスタを連携してファイルシステムを構成し、その上で、ファイルアクセスの行った際の性能を調査した。その結果、リモートファイルアクセス性能はノード間のバンド幅の影響を受けるが、RTT、バンド幅などのネットワークの限定された情報だけではファイルシステムを構成するノードの関係の推定が困難であること、ローカルファイルアクセス性能でもファイルアクセスパターンにより最大 0.1倍の性能に抑えられてしまうこと、が明らかになった。In parallel computing environments such as HPC clusters and the Grid, data-intensive applications involve large overhead due to the access concentration on files on commonly shared nodes. A grid filesystem with an automatic data management mechanism is one of the solutions to avoid such performance decrease. However, metrics to achieve efficient large scale data management are not clear for a given real grid environment. We federated 5 geographically distributed HPC clusters using a grid filesystem and experimented its various performance metrics of file access on the filesystem. We observed that, although remote access performance of files is affected by inter-node bandwidth, other factors are in place which makes prediction of performance solely based on limited inter-node information such as RTT or network bandwidth difficult, and that even for local file access, performance difference could be an order of magnitude depending on file access patterns due to access contentions.
著者
奥乃 博 京田耕司 中臺 一博 北野 宏明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2000, no.23, pp.116-124, 2000-03-02

Beowulrクラスクラスタは,PCクラスタの論理構成法であり,コモディティハードウェアやソフトウェアによりPCクラスタが容易に構築できる.しかし,それらの組合せによってはうまく動かなかったり,あるいは,性能が全く出ないということがある.本稿では,Beowulfクラスクラスタのチューニングを(1)ネットワーク,(2)プロセッサ間通信ライブラリ(MPIやPVM),(3)応用プログラム,という3つのレベルで分けて,行うことを提案する.具体的には,NetPIPEというネットワーク測定用ツールを用いて,(1)と(2)をチューニングする.次に,線形代数でよく使われるLINPACKの一つScaLAPACKを応用プログラムとして利用し,(1)と(2)から得られたネットワーク特性を用いて,ScaLAPACKのチューニングを行う.とくに,小さな行列に分割することと,最適化された線形代数パッケージを使用することが,ScaLAPACKの性能向上に不可欠であることが判明した.これらの知見を利用することにより,Pentium-II 450 MHz,256 MByteメモリのノード32台で構成されるERATO-1に本手法を適用した結果,ハードウェアの不具合いが発見でき,また,LINPACKベンチマークで6.76GFlopsの性能が得られた.Beowulf-Class cluster is a logical organization of PC clusters composed of mass-market off-the-shelf hardware and software. The user may have problems that their implementation won't work well in hardware level or their implementation provides quite a poor performance. In this paper, we present a new method to tune and evaluation of the Beowulf-Class cluter by focusing on three levels: (1) network level, (2) message passing system level (e.g., MPI, PVM), and (3) application level. The first two performance is measured by NetPIPE developed by Ames Lab. ScaLAPACK (parallel version of LINPACK) is used as benchmarks for application programs, because it is one of the most common linear algebra subprograms and its evaluation is beneficial for numerical computation users. ScaLAPACK is tuned by using parameters determined by NetPIPE. ERATO-1 Beowulf-class cluster, 32 nodes of Pentium-II 450HHz processor with 256MByte of memory, is tuned by the proposed method. First, a network interface card installed in each ERATO-1 node is indentified as the cause of poor performance and finally ERATO-1 attained 6.76 GFlops with LINPACK benchmark.
著者
早川 潔 関口 智嗣 岩根 雅彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.77, pp.111-116, 2001-07-25
被引用文献数
2

Beowulf クラスタシステムは 比較的安価でかつ容易に構築できるため 非常に注目を集めており Beowulf クラスタでの通信性能をはじめとする種々の処理性能向上に関する研究が盛んに行われている.また 処理性能の高精度な測定は より正確な評価を可能にし 通信時間の隠蔽などといった並列処理の効率化を可能にする.一般的に処理性能を測定するためには 各ノードの実行開始時刻を正確に揃えなければならない.一般的なBeowulf クラスタでは 各ノードの実行開始時刻を揃えるために MPI などの通信ライブラリのBarrier 関数が用いられる.しかし Beowulf クラスタに実装されるBarrier では ある程度の誤差が生じてしまう.そこで 本稿では PC をベースしたBeowulf クラスタシステ厶(SCCB-Cluster system )における高精度実行時間測定システムの検討を行った.高精度な測定を可能にするために Beowulf クラスタに高速なバリア同期を可能にするSCC ボードを搭載した.また そのSCC ボードの中にクロックカウンタを搭載し 疑似的なグローバルクロックを実装する.性能評価として Beowulf クラスタのcollective 通信性能を測定した.SCC ボードでの高速なバリア同期を用いた実行時間測定値は Ethernet を使用したMPI_Barrier を用いた測定値より 安 定し かつ 短い値を示したものあった.Beowulf cluster consisted of commodity parts,such as PCs and 100base/TX LAN card,is the most remarkable parallel computer system.Collective communications using MPI are the most integral packet forwarding methods on the cluster computing.Accurate performance analysis of collective communication is useful on performance evaluation and prediction of Beowulf cluster system.In order to measure execution time accurately, each node have to take the first step with execution by barrier.But it is difficult for each node to take the first step with execution each other,since it receives the packet indicating barrier completion through Ethernet (i.e.MPI_Barrier)in different time. This paper describes the Beowulf cluster system (SCCB cluster)that allows us to measure execution time accurately.SCC (Synchronization Communication Controller)was implemented in this cluster system.SCC is able to finish executing barrier less than 10us with 32 nodes.As the performance analysis of MPI collective communication using barrier that SCC performs (SCC_Barrier), performance of MPI collective communication of SCC_Barrier is less fluctuation than that of MPI_Barrier.
著者
笹生 健 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.29, pp.1-6, 2003-03-11
被引用文献数
2

本研究ではヘテロな計算環境でのアルゴリズム研究を目的として,NAS Parallel BenchmarksのCG EP FT IS MGの5種類のカーネルベンチマークについて,通信の発生する頻度,データ分割法などの点から解析・分類した.そして,CPUヘテロなクラスタ上での負荷分散手法として,多次元配列データをブロック分割しているアルゴリズムについては,各PEの性能に応じて割り当てるブロックの個数を変えるという手法を用い,1次元配列データを分割するアルゴリズムについては,各PEの性能に応じて分割の幅を変えるという手法を用いて実装し,CPU性能のみヘテロなクラ スタ環境においてヘテロ対応手法の評価実験を行った.その結果,EP,IS,MGでは性能向上が見られたものの,CG,FTでは通信のオーバー ヘッドの増大により逆に性能低下を招く結果となった.In this study, we implemented the optimization of the Kernel Benchmarks of NAS Parallel Benchmarks for a heterogeneous cluster system and evaluated on the CPU heterogeneous cluster. We used the technique of optimization that load sharing by changing data size corresponding to a performance of each nodes. From the experimental results, our method achieves improvement of performance on EP, IS, and MG. But in the case of CG and FT, increase of a communicative overhead affects the performance, and the performance of our method less than original CG and FT.
著者
原田 浩 石川 裕 堀 敦史 手塚 宏史 住元 真司 高橋 俊行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.66, pp.89-94, 1999-08-02
被引用文献数
6

既存のUnixオペレーティングシステムと低通信遅延かつ高通信バンド幅を有するネットワークシステム上にSCASHと呼ぶソフトウエア分散共有メモリを開発している。SCASH上に、ページ管理ノードの動的再配置機構を実装し、SPLASH2のLUを用いて評価を行った。その結果、管理ノードをノードに固定的にラウンドロビンに配置した場合との比較では64台の実行で1.17倍の性能向上を達成したが、管理ノードを固定的に最適化した場合との比較では、0.722倍の性能を得るに留まった。We have been developing a software distributed shared memory system called SCASH on top of a Unix with a low latency and high bandwidth network system. A dynamic owner node reallocation mechanism is introduced to SCASH and evaluated using the LU benchmark from SPLASH2 suits. LU under the dynamic ower node reallocation mechanism is 1.17 times faster than that of using round robin fashion node allocation. It is 0.722 times faster than that of using statically optimized owner node.
著者
寒川 光
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.38, pp.43-48, 1999-05-14

完全楕円積分は,グリーン関数法や境界要素法で軸対称問題を解く場合,数値解析プログラムの主要なカーネルとして現れる.代表的な計算法として,対数関数を経由するHastings公式を用いるものと,算術幾何平均を用いるものがある.本稿では高速計算に焦点をあてる.はじめに上記の方法の精度と速度について述べ,次に区間分割してテーブル駆動型を用いる高速計算法を提案し,最後に完全楕円積分の第1種と第2種が特殊が形で結合したグリーン関数の応用例について述べる.この例では完全楕円積分を独立に計算しても,第1種と第2種が打消しあうため,特別な配慮が必要になる.Complete elliptic integral appears as a major kernal of numerical analysis programs, in which Green function method or boundary element method is applied on axis-symmetric problems. Two typical methods are used, minimax approximation of Hastings form using logarithmic function and arithmetic-geometric mean method. In this paper we focus on high-performance computation of the integral. At first accuracy and performance of the above two methods are described, then a fast method by table driven algorithm is proposed, and finally an application of Green function is described. In this application, since complete elliptic integrals of the first kind and the second kind cancel their precisions each other, special treatment for accuracy is required.
著者
神林 亮 佐藤三久
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.74, pp.229-234, 2008-07-29

建物や街中,道路や駅構内といったさ様々な場所に,カメラや赤外線センサ,マイクなどのセンサデバイスが設置されつつあり,それらをネットワークで結びつけて活用する技術が期待されている.センシング Web は,クローズドなネットワークのみならず,広域ネットワークに接続されたオープンなセンサ群を接続して社会全体で共有利用を行おうとするプロジェクトである.センシング Web では,従来の単純なセンターを対象とする従来のセンサーグリッドと異なり,画像や音声も対象とする.そのためにプライバシの保護に配慮することが必要となる.また,画像データなどのデータは大量であるが,不必要なデータも多く,プライバシーに配慮する必要になるため,データは蓄積せずにセンサの直近で処理することが望ましい.そのためのアーキテクチャとして,遠隔プログラム実行によりセプライバシ情報や不要なデータを除去可能で,かつ認証機構によるアクセス制御が可能なセンシング Web のアーキテクチャを提案する.Recently sensor devices such as video cameras, infrared sensors and microphones on various places such as the building, in the town, and roads and the station yards are being placed. It is a promising technology to make use of these sensors connected by the network. Sensing web is a project to Bhare sensors open to the public in wide-area network, not only sensors closed in a network. Different from existing sensor grids for simple sensor devices, the Sensing web includes sensor devices such as video cameras and microphone. This requires consideration for privacy on the data from sensors. While sensor data such as images is relatively large, required information in the data may often be small and include privacy. So it is desirable to process the data and extract the information near the sensors. In this paper, we propose the architecture which can protect privacy information and remove useless data by shipping the remote program execution into the node near to a sensor with the access control by the authentication mechanism.
著者
丸山 訓英 鷲尾 巧 土肥 俊
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.103, pp.73-78, 1999-12-03
参考文献数
2
被引用文献数
1

有限要素法による離散化の結果生じる大規模連立1次方程式をベクトル計算機上で解くことを考える。解法として、有限要素法の1節点上の複数の未知数をブロックとするBlock ILU (IL)前処理反復法を用いる。一般に行列ベクトル積のベクトル化のためのデータ構造として知られるDJAD形式をBILU前処理行列に適用する。これにより、BILU前処理による前進後退代入計算において、CRS形式よりも長いベクトル長が得られる。評価例題(次元構造解析、未知数約37万)により本手法の効果をNEC SX?4/8 A (CP)上で評価し、前処理演算の計算時間が13分の1に短縮できるという結果を得た。一般にILU前処理においては、未知数のオーダリングが反復法の収束性、ベクトル性に大きな影響を与えることが知られている。本稿では、オーダリング方法についても考察し、BILU前処理においてオーダリングの影響がNEC SX?4/8A上でどのように現れるか評価した結果を示す。This paper deals with large sparse linear systems on high performance vector computers. Block incomplete LU (BILU) preconditioned iterative methods are adopted, where each block consists of unknowns on each node on a mesh in finite element or finite volume applications. The DJAD (Descending Jagged Diagonal) format is commonly applied to vectorize matrix vector multiplication for random sparse matrices. Proposed here is an extension of DJAD format for the BILU preconditioning. This technique enables to realize the vector length longer than the case implemented with a standard CRS (Compressed Row Storage) format. Numerical experiments using three dimernsional structural analysis problems show that the computational speed obtained with a solution method using this DJAD format is 13 times faster than that obtained with the same solution method with the CRS format on an NEC. supercomputer SX-4/8A. Ingeneral, an ordering of nodes in the ILU preconditioning has substantial influence on the convergence of the preconditioned iterative methods and the parallelism in the preconditioning. The effect of different orderings, i.e., the RCM (Reverse Cuthill- Mckee) and the multicolor orderings, on the total CPU time will also be compared on the SX-4/8A vector parallel supercomputer.
著者
中田 秀基 草野 貴之 松岡 聡 佐藤三久 関口 智嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.1996, no.22, pp.77-82, 1996-03-04
被引用文献数
3

ネットワーク数値情報ライブラリNinf(etwork based Infomation library for High Performance Computin)は、高速なネットワークを前提として、主に数値演算の分野において、計算自体を多くのユーザに提供することを目指したシステムである。本稿では、Ninfシステムを構築する要素の一つであるメタサーバに関して、そのアーキテクチャを示し、簡単な性能予備評価を示す。メタサーバは、サーバとクライアントの間にたちサーバの場所をクライアントに対して隠蔽する役割を果たす。また、メタサーバを用いることにより、簡単な分散並列計算が可能になる。To establish a framework of information sharing in the numerical computation area, we have proposed the Ninf, Network based information library for high performance computing. In this paper, we show a Meta Server architecture, which is a component of the Ninf system. Meta Server stand between the Server and the Client and hides the Server from the Client. It also enables easy distributed concurrent computation.
著者
吉瀬 謙二 佐々木 豊
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.17, pp.245-250, 2007-03-02

今日のパイプライン段数の多い高性能プロセッサにおいては,分岐予測ミスのペナルティが大きいために分岐予測の精度がその性能を左右する.しかし最近では,回路面積の削減などのためにハードウェアでおこなう分岐予測を簡素化した高性能プロセッサが市場に出荷されている.そのような簡素なハードウェア分岐予測しか持たないプロセッサでは,分岐予測ミスが多発することで性能を低下するおそれがある.本稿では,簡素なハードウェア分岐予測しか持たないプロセッサを対象として,従来はハードウェアでおこなっていた分岐予測をソフトウェアで実現するソフトウェア分岐予測の枠組みを提案する.また,Cellプロセッサに含まれるSynergisticProcessorElementにおけるソフトウェア分岐予測の可能性を検討する.バブルソートをベースにして飽和型2ビットカウンタ方式のソフトウェア分岐予測を実装する場合に,予測精度の向上および分岐予測ミスペナルティの削減が可能であること,最大で17%の性能向上を得られることを確認する.Accurate branch prediction is important for modern high performance processors. In order to improve the prediction accuracy, many hardware branch predictions have been investigated. On the other hand, a processor with very simple hardware branch prediction is appearing in a market. In this paper, we introduce the framework of software branch prediction that predicts branch outcome by software with minimal hardware support. We evaluate the framework on a Synergistic Processor Element of the Cell Broadband Engine Processor. Our preliminary experimental results using a bubble sort programs how that a software branch prediction of a two-bit saturating counter gives better prediction accuracy and achieves the maximum performance gain of 17%.
著者
林 徹生 本田 宏明 稲富雄一 井上 弘士 村上 和彰
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.87, pp.103-108, 2006-07-31
被引用文献数
2

今日に至るまで種々のプロセッサ・アーキテクチャが提案され,プロセッサの計算性能は著しく向上している.現在では1個のチップに複数のプロセッサコアを搭載することで性能向上を図るチップマルチプロセッサ(CMP)が数多く提案されるに至っているが,高い計算性能を誇るCellプロセッサもその一つである.また,CMPチップの用途として主にメディア処理が想定されているが,その高い計算能力を生かすことで分子軌道法計算等の科学技術計算にも利用可能と考えられる.そこで本研究ではCellプロセッサに分子軌道法計算の主たる計算部分である二電子積分計算を実装し,その性能を評価する.また,分子軌道法計算のような科学技術計算へ対する今後のCMPチップの利用可能性を考察する.As various architectures of processor are proposed until today, the processor performance improves remarkably. Now many chip multiprocessors that planed to improve performance by implementing some processor cores on a chip are proposed, and processor ``Cell'' is one of them. Though the media processing is mainly assumed as a usage of the chip, we think that we can apply their high performance to Science and Technology calculation like Molecular Orbital(MO) calculation. In this paper, we implement Two Electron Integral calculation that is core of MO calculation on Cell processor, and evaluate performance. And we consider the use possibility of chip multiprocessor for Science and Technology calculation like MO calculation.