著者
初田 直也 角田 俊太郎 内田 広平 石谷 太一 塩谷 亮太 石井 敬
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2023-ARC-254, no.9, pp.1-5, 2023-07-27

PEZY-SC3 は我々が開発した高い電力効率と面積効率を持つスーパーコンピュータ向けプロセッサであり,TSMC 7nm プロセス技術を用いて製造されている.PEZY-SC3 は高いスレッドレベル並列性を含むアプリケーションを対象としており,それらにおいて高い効率を実現するために MIMD メニーコアアーキテクチャ,細粒度マルチスレッディング,ノンコヒーレントキャッシュなどの要素を採用している.PEZY-SC3 は MIMD メニーコアアーキテクチャの採用により各コアが独立して動作するため,機能が限定された特殊なテンソルユニットや Wide-SIMD を採用した既存のプロセッサと比較して,高いプログラマビリティを持ちながら高電力効率を実現している.また,PEZY-SC3 の各コアはアウトオブオーダ実行や投機実行のような高コストな技術を一切導入せず,シンプルなパイプラインにより高電力効率と高スループットを両立している.さらに,独自のノンコヒーレントで階層的なキャッシュシステムにより,プログラマビリティを損なうことなくメニーコアにおける高いスケーラビリティを実現している.PEZY-SC3 を搭載したシステムの電力効率は 21.892 GFlops/W であり,スーパーコンピュータの電力効率を測定する Green500(2023 年 6 月)において 39 位となった.本論文ではこの PEZY-SC3 のアーキテクチャの概要と設計について説明する.
著者
小澤 慶祐 本田 晋也 松原 豊 高田 広章 加藤 寿和 山本 整
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2020-ARC-240, no.37, pp.1-8, 2020-02-20

近年,先進運転支援システムや自動運転の普及により,車載システムのアーキテクチャおよび車載システムの研究開発が変化している.そのような車載システムの研究開発において,プロトタイプ開発では設計生産性の高い ROS2 を,製品開発では信頼性の高い AUTOSAR-AP をソフトウェアプラットフォームとして使用することが考えられている.しかしながら現状では,ROS2 を用いたプロトタイプから AUTOSAR-AP を用いた製品とする設計フローが確立していない.そこで本研究では,ROS2 から AUTOSAR-AP への移行を含む設計フローの提案,検討を行った.はじめに,設計フローの要件を提案し,提案した要件を満たすような設計フローの提案を行った.次に,設計フローの検討のために,ROS2 で作成された自動走行ロボットのデモアプリケーションを AUTOSAR-AP のアプリケーションに書き換えるケーススタディを行った.最後に,ケーススタディの結果を踏まえ,提案した設計フローのより詳細な検討を行った.結果として,ROS2 から AUTOSAR-AP への開発環境の移行は可能であるが,効率的な移行のために ROS2 での開発時に記法や使用する機能を一部制限することが好ましいと考えられる.
著者
奥村 潤 佐野 隼輔 浦本 竜 久米 純矢 舘 伸幸 山崎 進
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2016-ARC-219, no.35, pp.1-6, 2016-03-17

倉庫を所有する企業では,在庫管理業務は非常に煩雑な作業である.そのため大企業では,倉庫の在庫をセンサーで自動検知できるような在庫管理システムを導入しているところが多い.一方で中小企業では,センサーが高額なためセンサーを持たない在庫管理システムを利用している場合が多い.その場合は人手で在庫を入力しており,十分に業務効率を改善できていない.そこで,我々は在庫を自動検知できる低コストな在庫管理システムを構築した.これはクラウドサービス kintone と Arduino を用いた IoT を組み合わせることで,低コストで最小限の機能を実現するものである.本研究では,アジャイル型の開発を行うことで,要求と成果物のギャップと,ハードウェア部品と工数のコストを削減した.
著者
田端 啓一
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2015-ARC-217, no.6, pp.1-1, 2015-10-01

近年,多くの WEB ブラウザで共通に利用可能である JavaScript が,プログラマによる記述のみならず,コンパイラやトランスレータのバックエンド言語として活用され,新たなアプリケーション実行基盤として注目されている.中でも,asm.js と呼ばれる JavaScript のサブセットへの変換は,Just-in-Time コンパイルの結果,ネイティブに迫る実行速度を実現できるよう意図されており,実行速度の面で期待が大きい.本発表では,C-to-JavaScript コンパイラである Emscripten を利用して,種々のベンチマークを asm.js に変換し,JavaScript 実行環境が,1.どのような実アプリケーションでの利用に耐えられる実行速度を達成しているか,2.どのような処理をクラウドにオフロードすべきか,3.どのような処理をネイティブコードで実装すべきか,について定量的評価と検討を行う.
著者
神谷 孝明 川島 英之 建部 修見
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2015-ARC-215, no.18, pp.1-10, 2015-05-19

本研究では ioDrive をストレージデバイスとする時にふさわしい WAL プロトコルとして P-WAL を提案する.まず,ioDrive においては並列ランダムライト時の I/O アクセス性能がシーケンシャルライトよりも高速になることを示す.そのような状況において,I/O アクセスと排他制御処理による性能劣化の問題に対処するために,P-WAL はそれぞれのログライタが専用の領域にログを書き込む,並列ログ書き込み方式を採用する.P-WAL の評価を行うため,数種類のモジュールからなるプロトタイプのトランザクションマネージャを設計する.これを用いて,スレッド数やグループコミットのパラメータを変化させ,従来方式の WAL と P-WAL の性能比較を行う.スレッド数を 16,グループコミットのパラメータを 16 にした時,P-WAL は 172,018 tps の性能を発揮し,従来方式と比べて,3.23 倍の性能向上を達成することを示す.
著者
今西 洋偉 高瀬 英希
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2020-ARC-240, no.48, pp.1-8, 2020-02-20

ROS 2(Robot Operating System 2)はアプリケーションの処理単位であるノードを複数組み合わせることでロボットシステムを構築する開発支援フレームワークである.2012 年に登場した関数型言語 Elixir は,軽量なプロセスモデルと耐障害性を兼ね備えている.我々は ROS 2 による分散ロボットシステムと Elixir のプロセスモデルとの親和性が高いと考えている.本研究では Elixir による ROS 2 のクライアントライブラリを提案する.ROS 2 における出版購読通信機能を提供する Elixir の API を設計し,これによって分散ロボットシステムのスケーラビリティの向上を図る.さらに Elixir のスーパーバイザを導入することで耐障害性を持たせた.提案手法を実装してその性能を評価し,ROS 2 アプリケーションにおける Elixir の適用可能性および技術課題を明らかにする.
著者
重信 晃太 大津 金光 大川 猛 横田 隆史
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2017-ARC-227, no.39, pp.1-6, 2017-07-19

近年,モバイル機器や組込み機器はマルチコアプロセッサや GPU などの処理装置を備えたものが普及している.これらの機器を最大限活用するためには,プログラムを実行機器の環境に合わせて最適化する必要がある.そこで我々は LLVM をベースとして実行機器上で ARM バイナリコードを実行機器の環境に合わせて自動で最適化するシステムを開発している.LLVM の最適化処理は LLVM の中間表現 (IR) に対して行われるため,ARM 機械語をLLVM IR に変換する ARM 機械語フロントエンドが重要となる.後の最適化の為に,生成される LLVM IR は最適化がしやすい表現である必要があるが,その表現は自明なものではない.本稿では変換の第一段階としてソースコードから生成される IR と同等の IR を生成する変換手法について検討し,その手法を適用した結果について述べる.
著者
久保 龍哉 藤木 大地 吉岡 健太郎 高前田 伸也
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2023-ARC-254, no.18, pp.1-6, 2023-07-27

インメモリ計算は,メモリ上で直接計算を行う新しい計算方式であり,データインテンシブなアプリケーションの高速化技術として近年活発に研究されている.特に,短いアクセス時間と高い柔軟性を持つ SRAMは,インメモリ計算用のデバイスとして様々な回路技術が提案されている.しかしながら,In-SRAM 計算技術に応用できるような,柔軟な SRAM 回路設計ツールは存在せず,こうした回路の設計者は,膨大な時間を費やして回路の設計・評価を行っている.この課題を解決するために,我々はインメモリ計算のためのオープンソースなメモリコンパイラを検討する.これは,製造プロセスに応じて SRAM 回路を生成する,従来のメモリコンパイラとしての機能性を持ち合わせながら,インメモリ計算のための多様なメモリセルのタイプと,ペリフェラル部に配置される論理回路のカスタマイズ性を導入する.本稿が実現すれば,ユーザーは簡単な設計から高性能なインメモリ計算用の SRAM 回路を迅速に生成することができ,インメモリ計算技術の研究やシステム応用を効率化することができる.
著者
山下 淳 二本松 秀樹 山本 和諒 浅井 優太 塩谷 亮太 五島 正裕 津邑 公暁
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2022-ARC-248, no.46, pp.1-13, 2022-03-03

現代の科学技術分野の進歩を支える高性能な大規模並列計算基盤は分散メモリ型と呼ばれるハードウェアの形態を取る.この形態を前提としたシステムでは,高性能なプログラムを実現するために,長い期間を費やして手動でチューニングする必要があり,生産性が問題となっている.このような中,生産性と性能を両立しうる機構としてトランザクショナルメモリ(TM)への関心が高まっている.TM はマルチコアプロセッサ向けに多く研究されてきたが,この機構を分散システムにも適用することで,分散メモリ型におけるプログラミングを単純にすることも可能であるという考えから,分散システムを対象とする分散トランザクショナルメモリ(DTM)が提案されているが,実用的な実装は未だ存在していない.我々は生産性と性能を両立する大規模並列計算基盤を実現するため DTM に着目し,生産性の高いプロトタイプを開発したが,性能面に改善の余地がある.そこで本稿では,DTM の性能を高めるためのソフトウェアキャッシュを設計および実装する.提案する DTM システムの有効性を確認するため,マイクロベンチマークおよび STAMP ベンチマークを用いて評価した結果,プロトタイプと比較してマイクロベンチマークでは 1.56倍,STAMP では 3.64 倍の高速化を確認した.
著者
大森 侑 木村 啓二
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2021-ARC-244, no.1, pp.1-10, 2021-03-18

バイトアクセス可能な不揮発性メモリ素子で構成された不揮発性メモリ(NVMM)が注目を集めている.NVMM は従来の主記憶に比べて記憶容量や消費電力に優れ,補助記憶と同じく不揮発でありながら高度なデバイスドライバを経由せずアクセスできる.その反面,レイテンシの大きさやリード性能とライト性能の非対称性などの特性を持つ.NVMM の性能と特性を十分に活かすには,ハードウェア・ソフトウェアの両面からシステムが最適化される必要がある.これに対し筆者等は,複数の NVMM アーキテクチャを柔軟かつ詳細に評価可能な NVMM エミュレータを ARM コアを持つ FPGA 評価ボード上に実装し,OS を含めたシステム全体を実用的な時間で評価できる環境を構築した.本稿では,RISC-V CPU を持ち Linux が動作する RISC-V NVMM エミュレータを提案する.本エミュレータは RISC-V コアを持つオープンソースの SoC をベースのデザインとして採用することにより,CPU コアの改変が可能であり,また,信頼実行環境(Trusted Execution Environment: TEE)である Keystone が利用可能となる.本エミュレータの NVM エミュレーション機構は,ARM ベースのエミュレータで使用していた高速なハード CPU の使用を前提とする手法を改良し,低速なソフト CPU でも局所性等のメモリアクセス特性を反映した評価を可能とする.さらに,ユーザ空間からのキャッシュ制御も可能とする.本エミュレータの Linux 及び Debian OS の動作確認後,Debian 上で SPEC CPU 2017 ベンチマークを用いた評価を行い,提案手法のみが局所性やリード・ライト比の NVMM 向け最適化手法で考慮されるべきアクセス特性を十分に反映できることを確認した.
著者
安島 雄一郎
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2021-ARC-243, no.5, pp.1-6, 2021-01-18

スーパーコンピュータ「京」および「富岳」のシステムアーキテクチャとインターコネクトが,当時の技術動向やプロジェクトの要求性能を踏まえてどのように検討され,開発されたか,その経緯を含めて紹介する.また,現在の技術動向を踏まえて,将来のスーパーコンピュータ開発について議論する.
著者
佐藤 功人 近藤 雄樹 清田 雄策
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2016-ARC-222, no.14, pp.1-7, 2016-09-29

データの保存に用いられる記憶媒体がディスク装置 (HDD) からフラッシュメモリ (SSD) へと移行し,Linux OS におけるストレージ装置のプロトコルスタックも従来の SCSI 規格に加えて SSD に特化した NVMe (Non-Volatile Memory Express) 規格が導入された.NVMe デバイスドライバでは,従来存在したマルチコア CPU で生じるコア間の排他制御競合によるボトルネックが解消されている.本報告では,高性能共有ストレージ装置へのアクセスインターフェースとして NVMe 規格を適用することで,ローカルの SSD と同様にボトルネックが解消することを定量的に示す.また,初期の NVMe デバイスドライバの実装方法では運用上のデメリットが発生するが,運用性を損なわずボトルネックを解消するために後に Linux に導入された,ブロックマルチキューについて述べる.
著者
飯田 凌大 津邑 公暁
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2018-ARC-232, no.7, pp.1-9, 2018-07-23

トランザクショナルメモリ (TM) は,クリティカルセクションを含む一連の命令列をトランザクションとして定義し,これを投機的に並列実行することで,粗粒度ロックと同程度の記述性と,細粒度ロックと同等以上の性能とを両立しうるパラダイムとして期待されている.この TM をソフトウェア上に実装したソフトウェアトランザクショナルメモリ (STM) では一般に,論理タイムスタンプを用いて共有変数の一貫性を検証しているが,この手法はスケーラビリティに欠けるという問題がある.また,他の一貫性検証手法として共有変数別ごとのバージョン情報を用いるものがある.この手法は論理タイムスタンプを用いる手法に比べスケーラビリティに優れるが,トランザクション内で読み出す共有変数の個数の二乗に比例するオーバヘッドが発生するという問題がある.本稿では,実行時のスレッド数とトランザクション内で読み出す共有変数の個数とを基準とし,一貫性検証手法を適切なものへ動的に切り替えることで,STM のオーバヘッド抑制とスケーラビリティ向上との両立を目指す.提案手法を実装し,評価を行った結果,最大 27.0%,平均 15.3% の速度向上を達成した.
著者
道上 和馬 中村 朋生 小泉 透 入江 英嗣 坂井 修一
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2020-ARC-240, no.31, pp.1-9, 2020-02-20

Approximate Computing は,計算精度と引きかえに実行時間と消費電力の双方を削減する技術である.この技術の適用範囲を広げる上での課題のひとつは,誤差を許容範囲内に収めることである.本論文では,この許容範囲がしばしばユーザの主観によって動的に変化することに着目し,計算精度を動的制御可能なアーキテクチャと計算精度の段階的制御が可能なループ近似手法「Loop Body Switching」を提案する.近似の積極度合いを指示する近似レベルを,Control and Status Register(CSR)に保持し,その値で Loop Body Switching の計算精度を制御する.提案するアーキテクチャをシミュレータ上に実装し,4 つのベンチマークを用いて評価をおこなう.近似レベルの増加に対して実行サイクル数は段階的に減少し,専用の分岐命令とハードウェア装置によりさらに実行サイクル数が減少した.
著者
眞下 達 塩谷 亮太 井上 弘士
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2020-ARC-240, no.32, pp.1-11, 2020-02-20

動的スクリプト言語は幅広い分野で利用されているものの,その実行時オーバーヘッドが大きな課題となっている.動的スクリプト言語を処理する仮想マシンでは一般に,実行時にさまざまな要素を動的に解決する必要がある.特に,仮想マシン上のオペランドの処理では多くのメモリ・アクセスを必要とし,それが実行性能を下げる大きな要因となっている.このオーバーヘッドを削減するために我々は OFAR (Operand Fetching And Remapping)と呼ぶ手法を提案する.OFARは,(1) オペランド値の浮動小数点物理レジスタ (FPPR: Floating-Point Physical Register) へのマップと,(2)オペランド番号のフロントエンドによるフェッチの,2つから成る.一般に,仮想マシンの大分部は整数命令によって実装されており,FPPR の大部分は使用されていない.これを利用し,通常はメモリ上に置かれる仮想的なオペランドの値を FPPR にマップする.これにより,オペランド・アクセスに伴うメモリ・アクセスの多くを省略することができる.また一般に,仮想命令のオペランド番号は基本的には不変であり,命令コードと同様に演算の結果により書き換わることがない.これを利用し,通常はバックエンドで読み出されるオペランド番号を,命令フェッチと同じようにしてフロントエンドで読み出す.これにより,オペランド番号をロードするための命令が省略されることに加え,早期にオペランド番号が得られることによりレイテンシを削減する.
著者
神宮 健吾 大津 金光 大川 猛 横田 隆史
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2018-ARC-231, no.16, pp.1-6, 2018-06-07

現在,マルチコアプロセッサが広く普及しており,スレッドレベル並列処理によるプログラムの高速化が可能となっている.一方,その性能を活用するためには並列化された機械語プログラムが必要であるが,数多くの逐次処理機械語プログラムが存在しており,それらはマルチコアプロセッサの性能を活かせないままである.これらをマルチコアプロセッサ上で高速化するためには, ソースコードの並列化と再コンパイル処理という追加的なコストが必要となる.この問題に対して,機械語プログラムをバイナリ変換によって直接並列化する手法が有効である.これを背景に,我々は逐次機械語プログラムから,最適化された並列処理コードへ変換する自動並列処理システムを開発している.本稿では,機械語プログラムをコンパイラ基盤 LLVM の中間表現コードへと変換し,中間表現レベルでの並列化処理において,解析とコード生成を分離するためのインターフェースとなる並列化指示文とそれに基づく並列処理コード生成機能を実現する.プロトタイプの実装を用いた実験により,シングルループの並列化指示文と並列処理コード生成機能により並列の中間表現コードが生成できることを確認した.
著者
森島 信 松谷 宏紀
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2018-ARC-231, no.22, pp.1-6, 2018-06-07

ブロックチェーンは,暗号通貨ビットコインで提案された P2P ネットワークで構成される分散型台帳システムであり,国際送金,個人間取引,資産の保全等幅広い用途に用いられている.ブロックチェーンでは,仮に取引の作成者であっても変更や削除ができないという性質によって改竄耐性が高められているが,この性質は,誤取引や秘密鍵の盗難などによって作成された不正取引を後から修正出来ないという問題点にもなる.この問題点により,一度盗難等の不正取引が発生した場合,その被害が拡大しやすく,承認前に取引を修正する等の対策を取り,被害を抑える必要がある.そのためには,高速に不正取引を検知する必要がある.しかし,ブロックチェーンにおいて異常を検知するためには様々な特徴量を用いて検知を繰り返す必要があるため,特徴量抽出がオーバーヘッドとなり,高速な異常検知が困難である.そこで,本論文では,並列計算性能に優れる GPU を用いて特徴量の抽出に必要な取引情報をキャッシュし,GPU 内で特徴量抽出と異常検知双方を行うことで,様々な特徴量を用いる異常検知を高速化することを提案する.提案手法により,計算量の大きい条件付きの特徴による Krneans 法を用いた異常検知で,利用者数 100 万,取引数 1 億の時に CPU 処理の 37.1 倍,異常検知のみを GPU で行う手法の 16.1 倍の高速化を実現した.
著者
田仲 史周 宮永 瑞紀 入江 英嗣 坂井 修一
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2018-ARC-231, no.21, pp.1-6, 2018-06-07

コンテンツ管理システム (CMS) の利用増加などによりインジェクションアタックヘの対策が重要になっている.インジェクションアタックに対する一般的な対策は既知のアタックをデータベース化して入力と照合する事で侵入を検知するものであるが,未知のコードによる攻撃を検出しにくい欠点がある.攻撃コードの既知 / 未知に関わらず包括的なインジェクションアタック検出を可能とする手法として,SWIFT (String Wise Information Tracking) が研究されている.これは,外部入力の文字列がその後どのように使わるかをチェックすることで,攻撃成立の前に実行を停止させる手法である.SWIFT の実証実装 PHP-SWIFT では最新の SQL インジェクション攻撃をデータベース無しで検出できることが確認されているが,この検出部は SQL インジェクションのみをターゲットとしていた.本研究では,他の性質を持つ主要なインジェクション攻撃としてディレクトリトラバーサル攻撃に着目し,PHP-SWIFT 用に同様に検出部を提案する.この拡張によって SWIFT-PHP の実用可能範囲を広げると共に,更に包括的な攻撃検出に向けたフレームワークを開発する.Wordpress プラグインの脆弱性を対象としたディレクトリトラバーサル攻撃を再現し行った評価では,用意した全ての攻撃を検出する事に成功した.
著者
飯塚 健介 武者 千嵯 天野 英晴
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2018-ARC-230, no.33, pp.1-6, 2018-02-28

高精度な画像認識や,物体検出を実現する畳み込みニューラルネットワーク (CNN : Convolutional Neural Network) は一躍注目されている.CNN は認識精度向上を目指し様々なモデルが提案されているが,計算量が増加する傾向にあり,より効率的な演算処理が求められている.しかし,汎用プロセッサではその要求を満たすことが困難なため,専用のアクセラレータの需要が高まっている.日本でも国立研究開発法人新エネルギー ・ 産業技術開発機構 (NEDO) が複数の FPGA,GPU,メモリなどの異種ノードを接続した大規模人工知能計算基盤 Flow-in-Clowd (FiC) を開発している.FPGA ノードは多数の高速リンクが接続され,FiC の高速通信のスイッチングを担う.FiC システムにおいて主演算を行うのは GPU ノードであるが,FPGA ノードもスイッチを実装した上で余った計算資源を利用して AI エンジンとしての役割を担うことができる.本研究ではマルチ FPGA システムに CNN モデルの 1 つであるGoogLeNet を実装し,評価することで GoogLeNet の高速化を図るとともに,マルチ FPGA システムの深層学習アクセラレータとしての活用ができるかを検討する.GoogLeNet が持つネットワークモデル特有の計算並列性,畳込み演算の計算並列性を利用したマルチFPGAシステムへの実装を行った結果,シミュレーション上で CPU の約 9.1 倍の高速化を達成した.
著者
岡 宏樹 吉田 明正
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2017-ARC-227, no.38, pp.1-7, 2017-07-19

Java プログラムの並列処理環境として Fork / Join Framework が導入されており,ワークスティーリングを伴うスケジューラが利用できるようになっている.このFork / Join Framework を用いて,タスク駆動型実行を伴う並列 Java コードを実装する方法が提案されている.この方法をメニーコア環境に適用する場合,並列ループの分割数に起因して並列コードが長くなる.しかしながら,並列 Java コードの増大は,JVM 上での Java プログラムの実行時間を増加させる傾向がある.そこで本稿では,タスク駆動型実行の並列 Java コードを短縮するコードコンパクション手法を提案する.本手法では,指示文付 Java プログラムを入力として,開発した並列化コンパイラにより Fork / Join Framework を用いたタスク駆動型実行コードを自動生成する.Intel Xeon Phi Knights Landing 上で性能評価を行ったところ,Java Grande Forum Benchmark Suite 2.0 のプログラムに対して,68 コア実行において最大 103 倍の高い速度向上が得られ,提案手法の有効性が確認された.