著者
島田 明男 バリ ゲローフィ 堀 敦史 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2012-HPC-135, no.3, pp.1-8, 2012-07-25

エクサスケールのスーパーコンピュータ実現に向けてメニーコアアーキテクチャが注目されている.メニーコア環境では,ノード内の計算処理の並列化が重要となる.本研究では,マルチプロセス型並列アプリケーションにおいて,低コストなプロセス間通信を実現するためのプロセスモデルとして,Partitioned Virtual Address Space (PVAS) を提案する.PVAS を用いることで,プロセス間通信で発生するコストを低減し,従来よりも効率的なノード内並列化を実現することができる.PVAS のプロセス間通信を利用する MPI 通信を実装し,評価したところ,通信のレイテンシとスループットを大幅に改善可能であることが分かり,本提案の有効性を確認することができた.
著者
堀 敦史 手塚 宏史 高橋 俊行 住元 真司 曽田哲之 原田 浩 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.66, pp.83-88, 1999-08-02
被引用文献数
3

SCoreクラスタシステムソフトウェアは,Myrinetを用いたクラスタを対象とした高性能かつスケーラブルな並列プログラミング環境のソフトウェアパッケージである.本稿は,Myrinet以外のネットワーク,SMPクラスタ,及びクラスタ化されたクラスタという3つの新たな形態のクラスタにSCoreを対応させる方法について提案するものである."Composite"と呼ばれる仮想ネットワークデバイスを設け,compositeネットワークデバイスが複数の実ネットワークデバイスとルーティングテーブルを持つことで,これらの形態のクラスタに対応可能であることを示す.ここで提案された方法は,見方を変えれば,ヘテロなネットワーク構成のクラスタへの対応と考えることができる.提案された方法は,現在SCore 3.0として開発が進められている.A high performance scalable cluster system software package, SCore, was designed for clusters using Myrinet. To adapt it to a cluster using other networks, an SMP cluster, and a cluster of clusters, the notion of "composite" is proposed in this paper. The "composite" is a virtual network device which consists of a routing table and several physical network devices. From the viewpoint of seamless computing, the "composite" is to handle heterogeneity. New SCore 3.0 is under development for implementing the "composite".
著者
堀 敦史 手塚 宏史 石川 裕 曽田 哲之 原田 浩 古田 敦 山田 務 岡 靖裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.79, pp.121-126, 1996-08-26
被引用文献数
3

我々は並列マシンにおける時分割空間分割スケジューリング方式を提案し、ワークステーションクラスタ用のスケジューリングシステムSCore?DをUNIXのデーモンプロセスとして開発した.現在,対話的な並列プログラミング環境実現方式の研究の最初のステップとして,オンライン並列デバッガSCDBの設計開発を行ってきている.一般に,デバッガプロセスはシステムコールによってデバッグ対象のプロセスの実行制御を行う.このような環境では、SCore?Dはユーザプロセスの状態を制御できず,スケジューリングシステムが正常に動作しない.そこで,SCore?Dがユーザプロセスに対してOS機能をサービス可能とするための機構を,プロセス間共有メモリおよびUNIXのシグナルを用いて設計開発した.We have been proposing Time-Space-Sharing Scheduline (TSSS) and developed a scheduling system, named SCore-D, as demon processes on UNIX. As a first step towards the research and development of an interactive parallel programming environment, we are designing a parallel online debugger, named SCDB. Generally debugger process has a control of debugee process. In the case of SCore-D, however, SCore-D can not control debugger and debugee processes, and the sceduling of SCore-D and the control of debugger can conflict. To avoid this situation, we design and develop a mechanism for SCore-D to support OS functions using inter-process shared memory and UNIX signals.
著者
小田和 友仁 住元 真司 堀 敦史 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [システムソフトウェアとオペレーティング・システム]
巻号頁・発行日
vol.2013, no.1, pp.1-7, 2013-04-18

将来の High Performance Computing (HPC) システムではメニーコア化・NUMA 化が進み,これらを考慮したシステムソフトウェアが重要になる.本稿では NUMA 型のメニーコアシステムにおける並列分散 I/O の実現に向けた予備検証の結果と考察について述べる.予備検証では,NUMA 環境での性能律速要素と律速時の性能影響を確認するため,既存の NUMA 環境でキャッシュ I/O における read/write の I/O 性能を測定した.本稿では予備検証で得た結果をもとに,将来 HPC での最適化された並列分散 I/O を実現する上での最適な分散ポリシーについて議論する.
著者
山口 訓央 高木 将通 堀 敦史 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2015-HPC-152, no.8, pp.1-10, 2015-12-09

InfiniBand を用いたハイパフォーマンスコンピューティング向けの通信ライブラリにおいて,通信性能低下を最小限に抑えながら,100 万ノードでの並列実行を可能にするメモリ消費削減手法を考察する.対象とする通信ライブラリは,MPI ライブラリとその下位に位置する低レベル通信ライブラリである.また,NUMA ノード内を OpenMP で並列化し,NUMA ノード間を MPI で並列化することを想定する.これらの通信ライブラリでは,並列実行ノード数と NUMA ノード数が増加した際のノードあたりメモリ消費量の増加が課題となる.この課題を解決するため,通信コンテキストの総数を制限する手法,また複数の通信相手で一つの資源を共有する手法,また複数の MPI プロセスでオブジェクトを共有する手法を考察する.本手法は,1 ノードあたり 4MPI プロセスとした場合,100 万ノードを用いた並列実行において,1 ノードあたりメモリ消費量を 1.00GB に抑えることができる.
著者
堀 敦史 手塚 宏史 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.39, no.9, pp.2705-2717, 1998-09-15
参考文献数
25

我々はシステムコールのオーバヘッドを削除したユーザレベル通信と,並列処理に有効とされるギャングスケジューリングに着目し,時分割多重並列プログラミング環境を構築した.本稿では,そのような並列プログラミング環境を構築する際の問題点を明らかにし,ユーザレベル通信とギャングスケジューリングという両者の利点を最大限に活かす手法として,「ネットワークプリエンプション」を提案する.ネットワークプリエンプションとは,並列プロセス切替え時に,プロセスのコンテキストのみならずネットワークのコンテキストをも退避/復帰しようとするものである.PCクラスタ上の評価結果では,500msecの時分割間隔において約2%のスケジューリングオーバヘッドであることが判明した.本稿で提案されたネットワークプリエンプションは,ギャングスケジューリングだけでなく,分散プロセスの大域状態検出などへの応用が考えられる.The goal of this research is the implementation of high-performance and easy-to-use parallel programming environment. We focus on the user-level communication technique and gang scheduling.In this paper,first we clarify some problems when implementing the user-level communication and gang scheduling,and then we propose network preemption that can extract the both benefits of the user-level communication and gang-scheduling.The network preemption is to save and restore network context when switching parallel processes.The proposed scheme is implemented on our PC cluster.On our evaluation on the PC cluster,gang-scheduling overhead is about 2% when the time slice interval is 500 msec.The proposed network preemption can be applied for not only gang scheduling,but also global state detection.
著者
福地 健太郎 松岡 聡 堀 敦史 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.18, pp.43-48, 1998-03-05
参考文献数
10

Implicit co?schedulingはBerkeley NOWプロジェクトで提案された、大域スケジューラーを持たず、オーバーヘッドが少い・実装が容易である等の利点を持つ並列ジョブスケジューリング技法である。これまでの性能評価では実行時間の対ギャングスケジューリング比にして0.6?1.6程度の性能が出るとされているが、実用的なアプリケーションでの性能評価はなされていない。本研究では、大規模高性能クラスター上で、NAS並列ベンチマークを用いる事で、implicit co?schedulingの実践的な性能を測定した。その結果、FT,CGにおいて実行時間の対ギャングスケジューリング比にして最大2.3倍という結果を得ており、Berkeleyの評価が再現しなかった。これは、ネットワークの混雑等が原因と予測され、現在追試中である。Implicit co-scheduling is a parallel job scheduling methodology proposed by the UC Berkeley NOW project, and embodies favorable characterlistics such as lack of global schedulers, low overhead, and easy implementation. Previous literatures have claimed that overhead versus traditional gang schedulers was about a factor or 0.6 to 1.6; however, evaluations were not performed using real-life workloads. We have implemented an implicit co-scheduler on a large-scale, high-performance cluster, and used NAS parallel benchmarks to measure effective performance. There, we found that for FT and CG, the overhead versus gang scheduling can be as high as factor of 2.3, negating the Berkeley results. We conjecture that this is due to excessive network traffic, but are still in the process of perforoming additional experiments.
著者
堀 敦史 手塚 宏史 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.1997, no.75, pp.79-84, 1997-08-19
参考文献数
13
被引用文献数
4

我々は,メッセージ通信型のプログラミングを対象としたギャングスケジューラを開発した.本稿は,開発したギャングスケジューラのスケジューリングオーバヘッドについて,PCクラスタ上で評価した結果について報告するものである.評価の目的は,アプリケーションの通信特性の違いがギャングスケジューリングのオーバヘッドに与える影響,実装された方式のスケーラビリティ,および co?scheduling skewの3点に注目した.今回の評価の結果,通信の量による違いよりも.co?scheduling skewの影響が大きいことが判明した.スケーラビリティの面においては,2プロセッサで動作する並列アプリケーションで比較的大きなオーバヘッドが見られたが,多くの場合,100 msecの量子時間でオーバヘッドは10%以下であり,4台以上の場合では,スケーラビリティに問題は見られなかった.We have developed a gang-scheduler for message passing programs. This paper reports on evaluation results of our gang-scheduler running on a PC cluster. We focus on, i) how communication patterns affects gang scheduling overhead, ii) scalability, and iii) co-scheduling skew. Through the evaluation, we found that effect of co-scheduling skew can be larger than effect of the amount of messages communicating. Also we found larger overhead with applications running on two processors, however, we could not find any scalability problem with applications running more than two processors. In most cases, implemented gang scheduling overhead is less than 10% with 100 msec time quantum.
著者
平井 浩一 小田和 友仁 岡本 高幸 二宮 温 住元 真司 高木 将通 Balazs Gerofi 山口 訓央 小倉 崇浩 亀山 豊久 堀 敦史 石川 裕
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2015-ARC-215, no.2, pp.1-8, 2015-05-19

将来の HPC 向けの OS としては,メニーコアへの最適化が必須となってきており,それを実現するための OS として McKernel を選択し,計算センターにおけるバッチジョブ運用への適応を進めている.本論文では,将来のスーパーコンピュータ上で,McKernel に適応したバッチジョブ運用を実現する場合の課題を述べ,現状の検討状況について述べる.
著者
佐伯 裕治 清水 正明 白沢 智輝 中村 豪 高木 将通 Balazs Gerofi 思 敏 石川 裕 堀 敦史
出版者
一般社団法人情報処理学会
雑誌
研究報告システムソフトウェアとオペレーティング・システム(OS)
巻号頁・発行日
vol.2013, no.15, pp.1-7, 2013-04-18

メニーコアプロセッサ向けの OS として,Linux カーネルと軽量カーネルが連携して管理するヘテロジニアス構成の OS を開発している.軽量カーネル上においても Linux カーネルのシステムコールを提供するために,軽量カーネルで実現されない Linux システムコールの処理は Linux カーネルに委譲する.引数がデータ領域を示すシステムコールの場合,転送が必要なデータの構造は API 仕様に依存するため,300 種類以上の Linux 互換システムコールに個別に対応したデータ転送を実装する必要がある.本稿では,システムコール処理対象となるデータを同一仮想アドレスへのメモリマップを行う方式により,軽量カーネルに個々のシステムコール処理を実装することなく Linux カーネルに委譲する機構と,その基本評価結果について報告する.We have been developing a heterogeneous OS composed of Linux and lightweight kernels for manycore processor. In order to provide all Linux system calls in the lightweight kernel, those primitives which are not provided by the lightweight kernel are delegated to the Linux kernel. Each system call differs in the number of arguments and argument types, and thus the code transferring arguments and results is implemented in each delegating system call. It is impractical to implement all Linux APIs, i.e., more than 300 system calls. Therefore, we developed a delegation mechanism of system calls without individual implementation to pass the data between the lightweight kernel and Linux using a memory mapping technique. In this technique, a user-level virtual address space in the lightweight kernel is mapped to the same position in a Linux process. We report the result of basic evaluation of system calls on lightweight kernel developed on Intel(R) Xeon PhiTM Coprocessor.
著者
大野 善之 堀 敦史 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-132, no.34, pp.1-6, 2011-11-21

並列ジョブにおける多数ファイルに対する I/O をひとつのファイルに対する I/O に集約することによりファイル I/O を高速化する方式を提案する.各プロセスごとにファイルを作成し,データを書き出すというファイル I/O パターンをとるアプリケーションが多くある.しかし,現在普及している並列ファイルシステムは,少数の大きなデータ I/O で高い性能がでるように設計されており,プロセスごとにファイルを作成するという I/O パターンでは高い性能がでない.そこで,並列ジョブにおけるファイル I/O をひとつのファイルに集約し,少数の大きなデータ I/O にする方式を提案する.Lustre 上で予備評価を行った結果,並列プロセスがそれぞれ 1MB のファイルを 128 個 I/O する場合,2-3 倍の性能向上を確認した.
著者
堀 敦史 山本 啓二 大野 善之 今田 俊寛 亀山 豊久 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.6, pp.1-8, 2011-07-20

エクサスケールを視野に置いた、メモリや通信の遅延を隠蔽するための新しいマルチスレッドライブラリを提案する。そのためにはサブマイクロ秒でのスレッド制御を可能にする必要がある。本稿では、スレッドスケジューリングとして、プロセッサの Simultaneous Multi-Threading 機能を用い、ハードウェアによる高速なスレッドスケジューリングを用い、また、スレッド間の同期機構として Intel 製のプロセッサが提供する monitor/mwait 命令を用いた新しいスレッドライブラリ、Shadow Thread を提案する。高速な同期と低消費電力を両立させるため、同期フラグを spin-waitとmonitor/mwait 命令を組み合わせた 2-phase の同期機構が有効であることを示す。この方式を用いて開発された Shadow Thread は、メモリ領域のコピーにおいて、最大約 20% の高速化に成功した。Towards the Exa-scale computing, a new thread library is proposed to hide the latencies of memory and communication. For this purpose, thread management must be fast enough in the order of sub-micro seconds. In this paper, the thread library, named Shadow Thread, is developed so that it utilizes Simultaneous Multi-Threading mechanism which schedules threads by hardware in a very fast way and utilizes the monitor and mwait instructions supported by some Intel processors. It is shown that the two-phase synchronization technique combining the conventional spin-wait method and the pair of the monitor/mwait instructions can satisfy the requirement of speed and low-power consumption simultaneously. Evaluation shows that a memory copy function using the Shadow Thread library can exhibit better performance up to 20% compared with the normal memcpy function.
著者
堀 敦史 石川 裕 NolteJörg 原田 浩 古田 敦 佐藤 忠
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告システムソフトウェアとオペレーティング・システム(OS)
巻号頁・発行日
vol.1994, no.106, pp.25-32, 1994-12-08

超並列OSにおけるプロセス間通信では,仮想記憶管理機構の技法を用いたプロセス間共有メモリによるプロセス間通信の高速化技法が必ずしも使えないことや,プロセスのスケジューリングに注意しないと効率的なプロセス間通信が実現できないなどといった,逐次マシンのOSとは異なる側面を持っている.本稿では,超並列OS上での効率的なプロセス間通信を実現するために,"buddy"と"alternate"という2種類のプロセスグループを提案する.Buddyプロセスグループはパイプライン処理,alternateプロセスグループはプロセス間共有メモリを可能とする.同時に,alternateプロセスグループを用いたスケーラブルな並列デバッガ実行モデルの提案も併せておこなう.Inter-process communication on a massively parallel operating system have some different aspects from that on a sequential system. For example, the virtual memory management technique for efficient inter-process communication that can be seen in the Mach micro kernel can not be implemented on a distributed memory parallel machine. Process scheduling is also very important to realize efficient inter-process communication. In this paper, we propose 2 kinds of process groups, "buddy" and "alternate" to realize efficient inter-process communication. The buddy process group is suitable for pipeline processing, while the alternate process group enables inter-process shared memory. Also, we propose a scalable parallel debugger execution model based on the alternate process group.
著者
堀 敦史 石川 裕 Nolte Jorg 原田 浩 古田 敦 佐藤 忠
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. CPSY, コンピュータシステム
巻号頁・発行日
vol.94, no.383, pp.25-32, 1994-12-08

超並列OSにおけるプロセス間通信では,仮想記憶管理機構の技法を用いたプロセス間共有メモリによるプロセス間通信の高速化技法を必ずしも使えないことや,プロセスのスケジューリングに注意しないと効率的なプロセス間通信が実現できないなどといった,逐次マシンのOSとは異なる側面を持っている.本稿では,超並列OS上での効率的なプロセス間通信を実現するために、"buddy"と"alternate"というに種類のプロセスグループを提案する.Buddyプロセスグループはパイプライン処理,alternateプロセスグループはプロセス間共有モメリを可能とする.同時に,alternateプロセスグループを用いたスケーラブルな並列デバッガ実行モデルの提案も併せておこなう.
著者
堀 敦史 李 珍泌 佐藤 三久
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.12, pp.1-8, 2010-07-27

片方向通信は,ハードウェアによる RDMA (Remote Direct Memory Access) と相性が良く,高い通信性能を実現できる方式として注目されている.本稿では,片方向通信をソフトウェアで実装する際のポイントを挙げ,既存の片方向通信ライブラリである ARMCI と GASNet について実装方式を調査した.その結果,RDMA を用いずにメッセージ通信を下位レベルの通信レイヤーとして片方向通信が実現できること,RDMA を用いた場合の実装に比べ実装が容易であること,さらに RDMA 方式に劣らない性能を発揮する可能性があることを示す.また実際にこの方式による片方向通信ライブラリ Telemem を開発し,RDMA を用いた片方向通信ライブラリである ARMCI と性能をベンチマークプログラムを通じて比較し,Telemem の性能が ARMCI を上回る場合があることを示す.One-sided communication is thought to have an affinity with Remote Direct Memory Access (RDMA) done by a network interface hardware, and is attracting attentions as a way of implementing scalable high-performance communication system. In this paper, some points to a implement one-sided communication system will be listed and then it will be pointed out that a one-sided communication system without using RDMA but having low-level message communication layer can be implemented easily, avoiding some of the implemenation issues. The proposed one-sided communication system is implemented and named "Telemem," and evaluated with ARMCI one-sided communication system using RDMA. Through the benchmark evaluations, it will be shown that the application performance with Telemem may overcome the performance with ARMCI.
著者
前田 宗則 小中 裕喜 石川 裕 友清 孝志 堀 敦史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 記号処理研究会報告
巻号頁・発行日
vol.93, no.81, pp.17-24, 1993-09-17

本稿では,循環参照カウント方式(CRC)を基礎とする新しいGCアルゴリズムCRC_<IW>を提案する.CRCは,ポインタによる循環構造も含めた任意の使用不能なメモリブロック(オブジェクト)を回収可能なGC方式であるが,対象言語がコンビネータに制限されること,循環構造を管理するアルゴリズムが逐次的であることという二点により,並列マシン上の一般の高級言語にはそのまま適用できなかった.CRC_<IW>は,各オブジェクトに順序数を与えることで任意の言語に適用可能とし,複数のプロセスによって並列に循環構造を管理するようアルゴリズムを拡張している.さらに,分散メモリを持つ並列マシンにおいてGCによる通信オーバーヘッドを低減するために,参照を3タイプに分けて管理することと各参照に重みを与えることが考察される.
著者
前田 宗則 小中 裕喜 石川 裕 友清 孝志 堀 敦史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [プログラミング-言語基礎実践-]
巻号頁・発行日
vol.93, no.73, pp.113-120, 1993-08-19

参照カウント方式ゴミ集めは,アプリケーションが生成する参照に循環構造が存在しないことを前提とする既に広く知られたゴミ集め技法である.これまでに,循環参照を取り扱えるよう拡張された循環参照カウント方式が提案されているが,アルゴリズム上その方式の適用可能な計算モデルがコンビネータマシンに限定される問題がある.本稿では,オブジェクト指向言語を含めて,参照の循環を任意の時点で引き起こすようなポインタ操作を許す言語に対する循環参照カウント方式ゴミ集めを提案する.さらに本方式は,ゴミ集めの並列処理と重み付き参照による参照複製に関して考察し,並列/分散環境のための基礎を与える.
著者
手塚 宏史 堀 敦史 O-CarrollFrancis 石川 裕
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.18, pp.25-30, 1998-03-05
参考文献数
20
被引用文献数
8

我々はPentium Pro 200MHzのPC64台をMyrinetギガビットネットワークによって接続したPCクラスタシステム"RWC PC Cluster II"を構築し,その上にマルチユーザの並列プログラミング環境SCoreを開発している.PCC2上の通信ライブラリPMは通常のメッセージ転送だけでなくリモートメモリライトによるゼロコピーデータ転送をサポートしており,約119Mバイト/秒(Kバイトデータ)のメッセージ転送バンド幅と約109Mバイト/秒(同8Kパイト)のリモートメモリライトバンド幅,および約7.5マイクロ秒(同8バイト)の通信レイテンシを持っている.また,PMのこれらの機能を用いたMPI/PMはPCC2上で約104Mバイト(同1Mバイト)のデータ転送バンド幅と約11マイクロ秒(同8バイト)の通信レイテンシを得ている.MPI/PMを用いたNASパラレルベンチマークの結果によって,PCC2の高い性能とスケーラビリティが実証された.We have built a PC cluster "RWC PC Cluster II" consisting 64 Pentium Pro 200MHz PCs connected by a Myrinet giga-bit network, and have been developing a multi-user parallel programming environment SCore on it. A communication library PM on PCC2 supports a message passing and a remote memory write using zero-copy data transfer. PM achieves 119M bytes/s (8K byte data) message passing bandwidth, 109M bytes/s (8K byte data) remote memory write bandwidth and 7.5 micro second communication latency. MPI/PM that uses these PM facilities achieves 104M bytes/s (1M byte data) data transfer bandwidth and 11 micro second communication latency on PCC2. The NAS parallel benchmark results using MPI/PM have shown PCC2's high performance and scalability.
著者
佐藤 未来子 辻田 祐一 堀 敦史 並木 美太郎
雑誌
研究報告 システムソフトウェアと オペレーティング・システム(OS)
巻号頁・発行日
vol.2011, no.6, pp.1-6, 2011-07-20

ハイパフォーマンスコンピューティング (HPC) の分野では,ペタフロップス級のスーパーコンピュータ開発が現実のものとなり,エクサフロップス,ゼッタフロップスという単位のシステム開発が次の技術課題となっている.本研究では,エクサコンピュータの実現に向けて,今後 HPC の主流となるメニーコアアーキテクチャを有効活用するための基盤ソフトウェアの研究開発を行っている.従来のマルチコアアーキテクチャを汎用コアとして活用しつつ,演算性能や並列性を強化しているメニーコアアーキテクチャを混在させたシステムアーキテクチャを想定し,アプリケーションプログラムからはメニーコアとマルチコアの特性を活かした単一システムとして見せられるメニーコア OS カーネルの実現を目指す.本論文では,メニーコア OS カーネルの検討課題を述べ,プロセス管理,メモリ管理,I/O 管理についての基本設計を述べる.In the field of high performance computing (HPC), the super computer development of the PetaFLOPS class becomes the one of the reality. The development of the ExaFLOPS system is the following technological opportunity. In this study, the infrastructure software to use Many-core architecture that will become the main current of HPC in the future effectively is researched and developed aiming at the achievement of ExaFLOPS system. We are assuming the system architecture to use past Multi-core architecture together with Many-core Architecture. We aim at OS Architecture that can use Many-core and Multi-core from the application program as a single system. In this paper, we show the overview of the OS and discuss on problems of the OS for Many-core architecture system. Moreover we describe the management of processes, threads, memory and also inter-OS communication handling.
著者
下沢 拓 石川 裕 堀 敦史 並木 美太郎 辻田 祐一
雑誌
研究報告 システムソフトウェアと オペレーティング・システム(OS)
巻号頁・発行日
vol.2011, no.1, pp.1-7, 2011-07-20

本稿では,メニーコア混在型システム向けのオペレーティングシステムのためのハードウェア抽象化層 AAL を設計する.AAL は,抽象化による移植可能性の向上を目的とし,抽象化層の摸擬環境を作成することによりメニーコア混在型システム向けのオペレーティングシステムの開発を可能にする.さらに,マルチコアシステムでメニーコア混在型システムを摸擬した環境での AAL の実装についても述べる.AAL, an abstraction layer of operating systems for manycore accelerators is designed in this report. AAL is aimed to provide portability of operating systems for manycore accelerators. AAL enables development of the operating systems without any manycore accelerators by implementing emulation of the layer. An implementation of AAL for a manycore emulation environment on a multicore CPU is also presented.