著者
藤田 智成
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.47, no.SIG12(ACS15), pp.411-419, 2006-09-15

Linux Target Framework(tgt)は,ストレージターゲットドライバのための新しいフレームワークである.tgtが提供するストレージプロトコルに非依存なAPIを利用することで,SCSI,AOE,NBD等の様々なSANプロトコルのターゲットドライバを簡素化することができる.ストレージプロトコルに依存する機能は,各プロトコルライブラリによって提供される.tgtは,信頼性向上,および,開発・保守を容易にするため,ストレージプロトコルの処理等,主要な機能をユーザ空間に実装している.商用環境を模擬した実験で,tgtはカーネル内部に実装されたストレージターゲットドライバと同等の性能を達成した.
著者
小野 功 水口 尚亮 中島 直敏 小野 典彦 中田 秀基 松岡 聡 関口 智嗣 楯 真一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.46, no.12, pp.396-406, 2005-08-15
被引用文献数
3

本論文では,Ono らが提案したNMR 蛋白質立体構造決定のための遺伝アルゴリズム(GA)を,複数のWAN 上のPC クラスタ群から構成されるグリッド上で並列化したシステムを提案し,提案システムの性能評価を行った結果を報告する.提案システムは,マスタ,サブマスタ,ワーカから構成される階層的なマスタ・ワーカ方式を用いて並列化されている.マスタと各PC クラスタ間の通信はセキュアなGridRPC ミドルウェアNinf-G を用いて,また,PC クラスタ内の通信は高速なGridRPCミドルウェアNinf-1 を用いて実現されている.さらに,提案システムでは,Ninf-G によるインターネット上の通信遅延を隠蔽するため,スライド転送手法を導入している.5 サイト/1 196CPU から構成されるグリッドテストベッドで,78 残基からなる蛋白質の立体構造決定問題を用いて,提案システムの性能評価を行った結果,高い並列化効率を示すことが確認された.In this paper, we parallelize the genetic algorithm (GA) for NMR protein three-dimensional structure determination, which has been proposed by Ono et al., on a grid that consists of multiple PC clusters on the WAN and report some results on the performance evaluation of the proposed system. The proposed system is parallelized with the hierarchical master-worker paradigm and consists of a master, submasters and workers. The communication between the master and each PC cluster is realized with Ninf-G, which is a secure GridRPC middleware, and that in each PC cluster is implemented by using Ninf-1, which is a fast GridRPC middleware. In the proposed system, we employ the slide transfer technique in order to hide the latency of communication on the Internet by using Ninf-G. The experimental results on the grid testbed consisting of 5 sites/1,196 CPUs showed that the proposed system effectively utilized computing resources on the grid testbed when it was applied to a problem of determining the three-dimensional structure of a 78-residue protein.
著者
小林 秀典 山﨑 信行
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.46, no.16, pp.69-84, 2005-12-15
参考文献数
27

インプリサイス計算モデルに基づくインプリサイスタスクは,その実行に十分な時間が割り当てられない場合でも,デッドラインまでに品質の低い結果を生成することができる.しかし,インプリサイスタスクの実行は任意の時点で中断される可能性があるため,共有資源へアクセスすることができないという欠点がある.本論文では,資源の最大占有時間が既知である環境において,インプリサイスタスクが共有資源へアクセス可能なスケジューリングアルゴリズムを提案する.本アルゴリズムは,システムに存在するスラックのプロセッサバンド幅をオフラインで算出し,スケジュール可能性を判断する.オンラインでは,付加部分に割当て可能な時間を動的に算出することで,実際に要求された資源アクセスが完了できることを確認する.提案したアルゴリズムを実時間オペレーティングシステムRT-Frontier に実装し,実用性を評価する.また,資源制約を持つインプリサイスタスクを用いた検証実験を行うことで,実時間性を満たした資源アクセスが可能であることを示す.The imprecise tasks, based on the imprecise computation model, can produce lower quality of result even when there is not enough time. However, the imprecise tasks cannot share resources, because they allow termination at any point in their optional parts. This paper proposes a scheduling algorithm that enables the imprecise tasks to share resources in systems where the maximum access duration of every resource is known. The offline part of this algorithm calculates the processor bandwidth of slack and checks the schedulability of the given task set. The online part schedules tasks in deadline order and calculates the remaining time for optional parts in order to verify whether requested accesses can be completed. We implement this algorithm on the RT-Frontier operating system to assess its practicability. Moreover, we conduct experiments using imprecise tasks with resource constraints to confirm that resources can be accessed without causing any timing violation.
著者
神代剛典 佐藤寿倫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.1, pp.43-53, 2004-01-15
参考文献数
35

コントレイルプロセッサは,エネルギー消費効率改善の目的でマルチスレッド技術を利用している.コントレイルプロセッサでは,アプリケーションプログラムは実行中に2 つの命令実行ストリームに分割される.1つは投機流(speculation stream)と呼ばれ,プログラムの主要部分を構成し,高速なパイプラインで実行される.投機流からは,トレースレベルの値予測を利用して,多くの命令実行列が削除されている.実行命令数が削減されているため,投機流でのエネルギー消費効率が改善されている.残りの命令実行ストリームは検証流(verification stream)と呼ばれ,投機流での値予測を検証してその実行をサポートしている.検証流は低速ではあるが電力消費の小さなパイプラインで実行される.したがって,エネルギー消費効率を改善できる.コントレイルプロセッサの鍵は,トレースレベルの値予測を利用することで元々はクリティカルであった命令列を非クリティカルに変え,それらを投機流から検証流に移動させることでエネルギー消費効率の改善を図っている点にある.本稿では,コントレイルプロセッサにおいて重要な役割を果すトレースレベルの値予測機構について検討する.Contrail processors utilize multithreading for improving energy efficiency. In Contrail, an execution of an application is divided into two streams. One is called the speculation stream. It consists of the main part of the execution and is dispatched into the fast functional units. However, several regions of the execution are skipped by utilizing trace-level value prediction. The other stream is called the verification stream. It supports the speculation stream by verifying each data prediction, and is dispatched into the slow units. The key idea is that the trace-level value prediction translates each critical path into non-critical one and moves it from the speculation stream into the verification stream, and then the non-critical instructions are executed on the slow units. In this paper, we investigate a trace-level value predictor for Contrail processors.
著者
遠藤 敏夫 額田 彰 松岡 聡
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.4, no.4, pp.169-179, 2011-10-05

2010 年 11 月に稼働開始した TSUBAME 2.0 スーパコンピュータは,Intel プロセッサに加え 4,000 以上の NVIDIA GPU を備えるペタスケールのヘテロ型システムである.この TSUBAME 2.0 における Linpack ベンチマークの実行について報告する.本システムは 2CPU と 3GPU を備えた計算ノードを約 1,400 台持ち,それらはフルバイセクションのファットツリー構造を持つ Dual-Rail QDR InfiniBand ネットワークにより接続される.理論演算性能は TSUBAME 1.0 の約 30 倍となる 2.4PFlops であり,それを TSUBAME 1.0 とほぼ同じ規模の電力で実現している.Linpack ベンチマークのコード改良およびチューニングを GPU を用いた大規模システムの特性に合わせて行い,実行速度として 1.192PFlops を実現した.この結果は日本のスパコンとしては初めて PFlops を超えるものであり,Top500 スパコンランキングに 4 位にランクされた.さらに電力性能比は 958MFlops/W であり,Green500 ランキングにおいて the Greenest Production Supercomputer in the World 賞を獲得した.
著者
小室 孝 鏡 慎吾 石川 正俊 片山 善夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.13, pp.106-116, 2007-08-15
参考文献数
18

超並列画像プロセッサの一種であるビジョンチップのプログラミングを容易にするために開発したビットレベルコンパイラについて報告する。本コンパイラは、(1) コード生成効率、(2) モジュールの再利用性、(3) ユーザ利便性の向上を目標に設計されており、C ベースの文法、並列演算と逐次演算の自動振り分け、任意のビット長に対する一般記法、ビットレベルコード最適化などを特徴とする。We report on a bit-level compiler which was developed for easy programming of a vision chip, that is a kind of massively parallel image processor. The compiler is designed aiming improvements of (1) code generation efficiency, (2) reusability of modules, (3) user convenience, and features C-based grammer, auto division of parallel and sequential processing, general notation of arbitrary bit-length, and bit-level code optimization.
著者
岩嵜 正明 竹内 理 中野 隆裕 中原 雅彦 谷口 秀夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.8, pp.165-178, 2007-05-15
参考文献数
8

従来,我々は,高精度周期スケジューリング機能を実現するOSカーネルTactixを基盤に,実時間通信に不可欠な帯域保証技術を開発してきた.しかしながら,ビデオ会議等への応用で課題となるルータ多段接続時の遅延時間に関しては考慮されていなかった.本論文では,周期送信機能を持ったパケットスケジューラ内部での遅延発生メカニズムを詳細に分析し,帯域保証とともに遅延時間の低減を可能とする改善方式を提案する.また,この改善方式よるルータ多段接続時の遅延時間を実測し,背景トラフィックが混在する多段接続Ethernet環境において,帯域保証リアルタイムストリームに対して,パケットロスト率0を維持しつつ,ルータ1段あたりのパケット転送の最大遅延時間を,送信駆動周期の2倍以内に抑制できることを確認した.In this paper, we propose a real-time packet scheduling method that enables the low latency packet forwarding for the real-time bi-directional continuous media communication on a LAN including cascaded IP routers. The experimental implementation of the packet scheduler can reduce the maximum latency in the single router to be less than twice the period of the isochronous transfer without any packet loss for a real-time stream. The packet scheduler can also reduce the maximum latency of cascaded routers to be less than the period of the isochronous transfer multiplied by the number of hops plus one with heavy background traffic.
著者
鈴来 和久 一柳 淑美 毛利 公一 大久保英嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.47, no.3, pp.1-15, 2006-03-15
参考文献数
17
被引用文献数
9

我々は,個人情報をはじめとするプライバシデータの漏洩を防ぐOS Salvia を開発している.プライバシデータは,データ提供者とデータ管理者の合意に基づいて取り扱う必要がある.そのため,Salvia ではプライバシデータを含むファイルの保護方法をデータ保護ポリシとして記述可能としている.データ保護ポリシには,従来のファイルの読み出し,書き込み,実行の権限設定に加えて,アクセス制限を課するための条件として,ファイルアクセスが発生した際の状況を示すコンテキストを記述できる.これによって従来のOS よりも細かく,かつTrusted OS よりも柔軟な,プライバシデータに適したアクセス制御を実現できる.すなわち,Salvia は,データ保護ポリシが定義されたファイルにアクセスを試みたプロセスのアクセス要求のみをコンテキストに適応して制御可能としている.本論文では,Salvia の設計と実装について述べるとともに,データ保護が可能であることを実証的に示す.We have been developing a privacy-aware operating system Salvia that prevents the privacydata such as personal information from leaking. It is necessary to manipulate the privacydata based on a mutual agreement between the data owner and the data administrator. InSalvia, in order to realize such an agreement, the protection methods of files that include the privacy data can be described as the data protection policies. In addition to the conventional permissions (read/write/execution), the context that shows the situation when the file access is generated can be described in the data protection policies. In Salvia, by enforcing these policies, the access control that is more detailed than the conventional operating systems and is also more flexible than the trusted operating systems can be achieved. Namely, by adapting to the context, Salvia is enabled only for the access request of the processes that have tried to access to the file associated with the data protection policies. In this paper, the design and implementation of Salvia is described, and also confirmed the effectiveness of Salvia's context-aware data protection method by practical examples.
著者
嶋村 誠 河野 健二
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.2, no.4, pp.48-63, 2009-12-17

遠隔から攻撃コードをネットワークを介して挿入するリモートコードインジェクション攻撃はセキュリティ上の大きな問題の 1 つである.これに対し,攻撃コードを検知・解析するシステムとして,ネットワーク・コードエミュレータが提案されている.ネットワーク・コードエミュレータでは攻撃コードの疑似実行を行うことにより,攻撃コードを精度良く検知したり,攻撃コードの振舞いを詳細に解析したりできる.また,攻撃コードを実行して解析を行うため,暗号化や難読化を施された攻撃コードにも耐性がある.本論文では,被害プロセスのメモリ上のデータを攻撃コードの一部として利用するメモリスキャン攻撃を用いると既存のネットワーク・コードエミュレータによる解析を妨害できることを示し,メモリスキャン攻撃も解析できるネットワーク・コードエミュレータである Yataglass+ を提案する.実際に Yataglass+ のプロトタイプを作成し,実際の攻撃コードにメモリスキャン攻撃を適用し実験を行った結果,Yataglass+ は正しくメモリスキャン攻撃を適用した攻撃コードを解析できた.
著者
滝沢 寛之 小久保 達信 片海健亮 小林 広明
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.46, no.SIG12(ACS11), pp.37-45, 2005-08-15

HPC Challenge(以下HPCC とする)ベンチマークは,高性能計算(High-Performance Computing,以下HPC)システムの総合的な性能評価のために提唱されているベンチマーク集である.現在までに広く用いられている浮動小数点演算性能に加えて,メモリアクセスやネットワーク通信の性能等,複数の観点から多角的にHPC システムを評価することにより,HPCC ベンチマークは実用的な科学技術計算に対する実効性能を適切に評価する指標として期待されている.本論文では,東北大学情報シナジーセンターで運用しているNEC SX-7 システムの性能をHPCC ベンチマークを用いて評価した結果について述べる.28 の評価項目のうち16 項目において著しく高い評価が得られた結果に基づいて,HPC 分野におけるベクトル型アーキテクチャの優位性について議論する.
著者
野村 隼人 入江 英嗣 坂井 修一
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.12, no.3, pp.76-86, 2019-07-29

プロセッサへのデータ供給能力は性能上最も重要な要素の1つであり,これを支えるため近年のプロセッサは大容量のLast Level Cache(LLC)を備えている.キャッシュ容量が大きくなるほど,再参照間隔のより長いキャッシュラインを的確に残すようなキャッシュマネジメントが求められるが,これは簡単なハードウェアで行うには難しい課題であり,現状,LLCには多くのデッドブロックが含まれている一方で,追い出しによるミスが発生していることが知られている.本研究では,ライン追い出しを一時的に凍結し,長期保持による統計的なヒット数向上を可能とするStubborn戦略をベースとして,その活用タイミングを適応的に決定する手法を提案し,性能向上を最大化させながら,性能低下の発生を抑えることを実現する.SPEC CPU 2006からメモリセンシティブな12本のベンチマークをシミュレーションした評価では,LRUに対して最大42.3%,幾何平均で3.8%の性能向上を示した.
著者
西川 武志 松岡 聡
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.13, pp.117-126, 2007-08-15
参考文献数
12
被引用文献数
3

デジタル時刻認証はデジタルデータがある時点で『存在していた』、『改竄されていない』ということを証明する手段である。現在メインストリームである集中型タイムスタンプ手法は多数のタイムスタンプ要求が集中することに耐えることができない性能スケーラビリティ上の問題がある。したがって集中型タイムスタンプ手法は分散 DoS 攻撃に弱い。集中型タイムスタンプ手法の性能スケーラビリティ上の問題や分散 DoS 攻撃耐性がないという問題を解決するために分散時刻認証法が提唱されている。しかしながら原子時計のような高価な時刻源を用いることや信頼できる第三者による監査に由来する高コスト性は解決されていない。本論文では我々は (N,K = L+M,G) 手法を用いた TSA Grid と名付けた信頼できる高性能で頑強で安価な分散時刻認証法を提唱する。それは独立の主体によって管理されている peer-to-peer 型の時刻認証プログラムに基づいており、既存の分散時刻認証法のコストの問題を解決する。(N,K = L+M,G) 手法では、N 個の Time Stamping Units (TSU) に G 世代にわたってタイムスタンプ要求が伝搬される。各世代では L 個の信頼できる TSU と M 個のランダムに選んだ TSU からタイムスタンプが要求・応答される。G と L と行ったパラメータの導入により TSU が相互に自律的に監査すること、時刻認証の期待値の推測を可能にしている。また本論文で TSA Grid の基本的なパラメータ依存性について報告する。Digital time stamping is a technique to prove the existence of a digital data prior to a specific point in time. The centralized time-stamping scheme which is the main stream at present can not stand up to the concentration of numerous time-stamping requests. So, the centralized time-stamping scheme has vulnerability to the distributed DoS (DDoS) attack. Distributed time stamping schemes have been proposed to solve a performance scalability problem such as tolerance to DDoS attack. They still have high cost problems which are caused by a utilization of atomic clock and by audit of trusted third party. In this paper, we define a reliable, a high-performance, a robust, and inexpensive distributed time stamping scheme. It is named "TSA Grid" with (N, K = L + M, G) scheme and its scheme is based on a network of peer-to-peer time-stamping programs managed by administratively independent entities. It solves the cost problem of proposed distributed time stamping schemes. In (N, K = L + M, G) scheme, one time stamp request propagates for G generation to N Time Stamping Units (TSU). In each generation, L time stamps replies from reliable TSU and M time stamps replies from randomly chosen TSU. The G and the L parameters enabled us to expect authorized time of time-stamping. And they also enabled TSU to audit TSU themselves mutually and automatically. We also investigate basic characterisitic of parameter dependencies of the TSA Grid.
著者
渡邊 幸之介 大塚 智宏 天野 英晴
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.11, pp.393-407, 2004-10-15
被引用文献数
3

乗っ取り機構は新しい形態のハードウェア/ソフトウェア協調処理である.乗っ取り機構では,オンチッププロセッサがハードウェアのステートや内部レジスタを任意に書き換えることで,ハードウェア処理の一部をソフトウェア処理に置き換えることや,逆にソフトウェア処理の一部をハードウェアモジュールの機能を用いて高速化することが可能となる.我々は,この乗っ取り機構をRHiNETのネットワークインタフェース用コントローラチップであるMartiniに実装し,その有効性について評価を行った.評価の結果,乗っ取り機構を実装することで数%程度回路規模が増大するものの,効率的な例外処理が可能となるうえ,ソフトウェア通信処理の大幅な高速化が実現できることが分かった."Taking over mechanism" is a novel framework for a hardware/software cooperation. In this mechanism, an on-chip processor partly emulates a certain operation of hardwired logic, or uses a hardware module as an accelerator during software operation by stopping a state machine and accessing to registers of the module. We implemented this mechanism on Martini: a network interface controller chip of RHiNET. Evaluation results show that the taking over mechanism makes exception handling efficient, and moreover, it greatly accelerates software communication processing with a few percent of hardware increase.
著者
武宮 博 田中 良夫 中田 秀基 関口 智嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.11, pp.144-159, 2004-10-15
参考文献数
39
被引用文献数
7

Grid プログラミングモデルの1 つであるGridRPCの参照実装としてNinf-G2の開発を行い,性能を評価した.広域に分散した複数台のクラスタから構成される大規模Grid 環境上でアプリケーションを効率良く実行することを目的とするNinf-G2は,関数ハンドル同時生成機能やリモートオブジェクトを実装することで,遠隔手続き呼び出しにともなう起動コストや通信コストの低減を図るとともに,ハートビート機能や関数ハンドル作成タイムアウト機能,サーバ属性の個別設定機能を提供することで,非均質,不安定で動的に変化するGrid環境への対応を図っている.典型的なタスク並列アプリケーションである気象シミュレーションプログラムを対象に,6台のクラスタから構成されるGridテストベッド上でNinf-G2の性能評価を行った.その結果,個々のタスクの実行時間が十数秒から数十秒程度の比較的粒度の小さいシミュレーションであっても,200台以上のプロセッサを用いて効率的に実行可能であることが分かった.A high performance GridRPC system called Ninf-G2 has been developed and its performance was evaluated. Ninf-G2 aims to enable applications to run efficiently on a large scale Grid environment which consists of clusters widely distributed over a network. It tries to reduce costs for start-up and communication by simultaneous function handles creation function and remote object mechanism. In addition, it tries to cope with heterogeneous, unstable, and dynamically varying grid environment by heart-beat monitoring function, timeout mechanism in creating function handles, and methods to specify server-dependent attributes. Using 6 distributed clusters, performance of Ninf-G2 was evaluated by running an atmospheric simulation program which is a typical task parallel application. Good performance was attained on a grid environment with more than 200 processors even in the case of applications having many small grained tasks.
著者
田村 芳明 柳澤 佳里 佐藤 孝治 盛合 敏
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.3, no.1, pp.13-24, 2010-03-16

インターネット上で提供されるサービスの増加と高機能化に加え,PC サーバの小型化,高速化,低価格化により,企業では多数の PC サーバで構成された複雑なシステムのコスト削減とリソースの有効利用が求められている.この課題を解決するために,仮想マシンを利用して,1 つの物理マシン上に複数のサーバ機能を統合することが検討されている.しかし,ハードウェア障害発生時にサービスを継続するためには,特殊なハードウェア,アプリケーションや OS に依存しない,可用性の高い構成が必要である.本論文では,仮想マシン間の同期による耐故障クラスタリング技術,Kemari について述べる.Kemari は,アプリケーションや OS に依存しないで,障害発生時にサービスを継続することができる.Kemari を仮想マシンモニタである Xen に実装し,実験を行ったところ,運用系の電源断といった障害でも,アプリケーションや OS が待機系で透過的に継続できることを確認した.
著者
藤原 宏志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.48, no.8, pp.22-30, 2007-05-15
参考文献数
17
被引用文献数
2

偏微分方程式の高精度かつ大規模数値計算に適する高速な多倍長数値計算環境exflibの設計と実装を行った.本計算環境はFORTRAN90またはC++ 言語から利用可能であり,ポリモルフィックなインタフェースを提供している.本論文では,大規模数値計算で多く利用されるFORTRAN90への対応とアセンブリ言語でのライブラリの設計について論じる.さらに,典型的な逆問題の数値計算において,FORTRAN用の多倍長計算環境と比較して本計算環境の高速性とメモリ利用について示す.また,数値的に不安定なスキームに対して多倍長数値計算を利用することで,計算誤差の急激な増大に対する多倍長計算の有効性と数値解析理論への応用例を示す.We design and implement a fast multiple-precision arithmetic package 'exflib' for the purpose of large scale numerical computations of partial differential equations. The package are works with FORTRAN90 or the programming language C++ and main arithmetics are written in an assembly language. We give a remark on compatibility of programs implemented in an assembly language and FORTRAN90 compilers. Numerical results for a typical inverse problem are given to compare the proposed library with a FORTRAN multiple-precision arithmetic package. We also show an important application to numerically unstable problems and numerical nalysis.
著者
井上 拓 森山 孝男 小松 秀昭 中谷 登志男
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.47, no.SIG7(ACS14), pp.105-113, 2006-05-15

データを値の順番に並べ直すソート処理は多くのソフトウェアで使用される最も基本的な操作の1 つであり,ソート処理の高速化は多くのワークロードの性能向上に寄与する.ソート処理は基本的な操作であるため,古くから多くのアルゴリズムが提案されているが,近年の高性能な汎用プロセッサのSIMD 命令を用いて高速にソートを行うことのできるアルゴリズムはこれまで提案されていない.そこで本研究ではPowerPC アーキテクチャが持つSIMD 命令セットであるVMX を使用して,並列に処理を行うとともに分岐予測ミスの影響をなくすことで高速にソート処理を行うことのできるアルゴリズムを提案する.このアルゴリズムを実装し,PowerPC 970FX プロセッサ上で評価を行い,クイックソートと比較して最大で5.6 倍の性能向上が得られることを示した.
著者
中本 幸一 高田 広章 八谷 祥一 朝倉 義晴 樫宿昌房
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.45, no.3, pp.64-78, 2004-03-15
参考文献数
25

Java言語は組込みシステムで必須なリアルタイム処理には適さないといわれている.本論文では,リアルタイム処理を行う組込みシステムでJava言語を利用するためにリアルタイムOSとJavaプログラムの実行環境を共存させたハイブリッドアーキテクチャJTRON2.1の仕様策定を行い,これに基づいた試作の評価結果と実システムでの応用事例を述べている.JTRON2.1仕様では,Javaスレッドとリアルタイムタスクは通信機能により協調動作を行う.この通信機能には,リアルタイムOSの資源をJavaスレッドから利用するアタッチクラス,Javaオブジェクトをリアルタイムタスクから利用する共有オブジェクト,Java言語のストリーム機能を利用したストリーム通信の3種類がある.この通信機能はリアルタイムOS,Java実行環境上にライブラリとして実現される.このライブラリを利用して,リアルタイム処理はリアルタイムOS上のリアルタイムタスクで処理し,非リアルタイム処理はJava実行環境上のJava スレッドで実行させるような環境が実現される.There exist some problems in real-time processing essential in embedded systems when the Java language is applied to the embedded systems. This paper presents specification, evaluation results and applications of a hybrid architecture JTRON2.1, in which the Java runtime environment and a real-time OS coexist in order to utilize the Java language in the embedded systems requiring real-time processing. In JTRON2.1 specification, Java threads and realtime tasks cooperate through communication mechanisms. The communication mechanisms consist of attach classes, shared objects and stream communication. The first one provides methods by which Java threads can access to real-time resources. By the second one, realtime tasks can access to Java objects. The third one utilizes the Java stream to communicate with real-time tasks. The communication mechanisms are implemented by libraries on the real-time OS and the Java runtime environment. Using the libraries, the hybrid architecture is realized, where real-time processing is executed by real-time tasks on the real-time OS and non real-time processing is done by Java threads on the Java runtime environment.
著者
林 明宏 和田 康孝 渡辺 岳志 関口 威 間瀬 正啓 白子 準 木村 啓二 笠原 博徳
出版者
情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.5, no.1, pp.68-79, 2012-01-27

汎用CPUコアに加え特定処理を高効率で実行可能なアクセラレータを搭載したヘテロジニアスマルチコアが広く普及している.しかしながら,ヘテロジニアスマルチコアでは様々な計算資源へのタスクスケジューリングやデータ転送コード挿入等多くをプログラマが記述する必要があるためプログラミングが困難である.そこで本論文では,逐次プログラムを入力とし自動並列化コンパイラを用いることで自動的に汎用コアとアクセラレータコアにタスクを配分し,高い性能および低消費電力を実現可能なソフトウェア開発フレームワークを提案する.本手法はアクセラレータコンパイラやアクセラレータライブラリ等既存のアクセラレータ開発環境を有効に利用可能である.本フレームワークを情報家電用ヘテロジニアスマルチコアプロセッサRP-Xをターゲットとして,アクセラレータライブラリを使用し,AACエンコーダおよびOptical Flow計算の自動並列化性能および消費電力を評価した.その結果,8つの汎用CPUコアおよび4つのアクセラレータコアを使用した場合,逐次実行時と比較してOptical Flow計算で最大32倍,AACエンコーダで最大80%の電力を削減可能であることを確認し,ヘテロジニアスマルチコアを対象とした汎用的なコンパイラフレームワークを実現した.There has been a growing interest in heterogeneous multicores because heterogeneous multicores achieve high performance keeping power consumption low. However, heterogeneous multicores force programmers very difficult programming. In order to overcome such a situation, this paper proposes a compilation framework which realizes high performance and low power. This paper also evaluates processing performance and the power reduction by the proposed framework on RP-X processor. The framework attains speedups up to 32x for an optical flow program with eight general purpose processor cores and four DRP (Dynamically Reconfigurable Processor) accelerator cores against sequential execution by a single processor core and 80% of power reduction for the real-time AAC encoding when we utilize an existing accelerator library.
著者
笹田 耕一 佐藤未来子 河原 章二 加藤義人 大和 仁典 中條拓伯 並木 美太郎
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.44, no.11, pp.215-225, 2003-08-15
参考文献数
11
被引用文献数
10

近年,マルチスレッドプロセッサアーキテクチャの研究が盛んである.このアーキテクチャの性能を引き出すためには,システムソフトウェアのサポートが不可欠であるが,従来のモデルでは,カーネルが計算実体を管理するため,このアーキテクチャの利点を十分に活用することができなかった.そこで本研究では,マルチスレッドアーキテクチャ上で効率的に機能するユーザレベルスレッドライブラリの実現方法を検討し,実際に作成した.ライブラリは,1チップが複数持つ実スレッドを管理し,スレッドの並列実行をサポートすることで性能を向上させる.また,プロセッサのスレッド制御命令を利用することで,高速なスレッド制御を可能にする.ユーザレベルでスレッドを管理するうえで困難な問題はOSと協調動作することで解決する.シミュレータによる評価の結果,スレッドの並列実行により最大1.5倍の性能向上を確認した.また,軽量なスレッド制御を実現した.Recently, there are many studies on multithreaded processor architecture. In order to get the higher performance of this architecture, support of system software is indispensable. However, from the view of performance, the advantage of the architecture has not been utilized enough without kernel supports for Architecture (Physical) Threads. In this research, we have designed and developed a thread library that works efficiently on a multithread architecture. Architecture Threads of a processor are managed on a user level library supports to parallelize threads and improve performance. Using the thread control instructions of the processor enables high-speed thread control. Inefficiency when managing threads on a user level would be improved by cooperation with OS. As a result of simulation based evaluation, up to 1.5 times higher performance has been gained by parallel execution. Moreover, we have accomplished a lightweight thread control.