著者
安井 裕亮 齋藤 彰一 津邑 公暁 毛利 公一 松尾 啓志
雑誌
研究報告組込みシステム(EMB)
巻号頁・発行日
vol.2012, no.10, pp.1-7, 2012-11-28

システムコールは, CPU の割り込みを用いて実装されてきた.しかし,システムコールによる割り込みがアプリケーションやカーネルの実行を妨げることが指摘されている.この問題に対して,システムコール発行時に割り込みを必要としない手法として FlexSC が提案されている.しかしこの手法には共有メモリへのアクセスコストの問題や,同じデータにアクセスするシステムコールの扱いに関する問題がある.そこで本研究では, FlexSC の持つ問題点を解決する手法として,ユーザ関数の非同期カーネル内実行機構である Sakura Call を提案する.評価においてこの Sakura Call が FlexSC よりも大きな実行時間の削減を達成していることを示した.System calls have been implemented with an interruption mechanism provided by a CPU. However, it is claimed that an interruption cased by a system call impacts the performance of applications and a kernel. FlexSC which requires no interruptions at invoking a system call is proposed to solve the problem. Nevertheless there are some problems such as cost of accessing to a shared memory and a method of handling system calls which share the same data with each other. To fill up deficiencies of FlexSC, we propose a new mechanism, called Sakura Call, which enables asynchronous in-kernel execution of user functions. We show that Sakura Call achieves more reduction of an execution time than FlexSC by an evaluation.
著者
中田 尚 吉見 真聡 片桐 孝洋 吉瀬 謙二 岡本 吉央 津邑 公暁
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2009-ARC-184, no.24, pp.1-6, 2009-07-28

先進的計算基盤システムシンポジウム SACSIS2009 併設企画として,マルチコアプログラミングコンテスト 「Cell チャレンジ 2009」 を開催した.文字列の編集距離を求める規定課題部門,および各チームが自由に課題を設定できる自由課題部門の 2 部門で行ったところ,のべ 77 チームの参加を集め,盛況に終えることができた.本稿では,Cell チャレンジ 2009 の実施報告を行う.
著者
井手上慶 河村慎二 津邑公暁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告
巻号頁・発行日
vol.2014, no.1, pp.1-9, 2014-09-29

スマートフォンなどの普及に伴い,ガベージコレクション (GC) の性能が与える影響範囲が拡大している.一方,GC は主にアルゴリズム面で改良がなされてきたが,GC 実行時のレスポンス低下など,重要な問題の根本的解決には未だ至っていない.これに対し我々は,ハードウェア支援により GC を高速化する手法をこれまでにいくつか提案しており,その有用性について検討してきた.本稿では,まず我々が提案している二つの手法を取り上げ,それぞれ評価結果を示すとともにその有用性について述べる.これらの手法はいずれも,GC における基本的な構成処理要素に着目し,その高速化を図るものである.その後,現在我々が取り組んでいるハードウェア支援を用いたコンパクション機能について述べる.コンパクション機能を実装している既存の GC アルゴリズムはいくつか存在しているが,オブジェクトの移動時には当該オブジェクトを参照しているポインタを張り替える必要があり,これは一般にコストが比較的大きい.そこで本手法では,オブジェクト間の参照関係を記憶する専用の表をプロセッサに追加し,これを利用することで高速なポインタの書き換え,およびコンパクション機能の実現を目指す.そして最後に,この手法により期待される効果について考察する.
著者
橋本 高志良 堀場 匠一朗 江藤 正通 津邑 公暁 松尾 啓志
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.6, no.4, pp.58-71, 2013-10-30

マルチコア環境では,一般的にロックを用いて共有変数へのアクセスを調停する.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これに代わる並行性制御機構としてトランザクショナル・メモリが提案されている.この機構においては,アクセス競合が発生しない限りトランザクションが投機的に実行されるため,一般にロックよりも並列性が向上する.しかし,Read-after-Readアクセスが発生した際に投機実行を継続した場合,その後に発生するストールが完全に無駄となる場合がある.本稿では,このような問題を引き起こすRead-after-Readアクセスを検出し,それに関与するトランザクションをあえて逐次実行することで,全体性能を向上させる手法を提案する.シミュレーションによる評価の結果,提案手法により16スレッド並列実行時において最大53.6%,平均15.6%の高速化が得られることを確認した.
著者
大場 百香 三輪 忍 進藤 智司 津邑 公暁 八巻 隼人 本多 弘樹
雑誌
研究報告システムとLSIの設計技術(SLDM) (ISSN:21888639)
巻号頁・発行日
vol.2017-SLDM-179, no.28, pp.1-6, 2017-03-02

マルチコアニューラルネットワークアクセラレータでは,メモリとコア間のデータ転送時間がボトルネックとなっており,ニューラルネットワーク計算を効率良く行うことができない.そこで本論文では,このデータ転送をブロードキャスト化することでボトルネックを解消するアクセラレータを提案し,性能分析およびハードウェアコストの評価を行った.
著者
山下 淳 二本松 秀樹 山本 和諒 浅井 優太 塩谷 亮太 五島 正裕 津邑 公暁
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2022-ARC-248, no.46, pp.1-13, 2022-03-03

現代の科学技術分野の進歩を支える高性能な大規模並列計算基盤は分散メモリ型と呼ばれるハードウェアの形態を取る.この形態を前提としたシステムでは,高性能なプログラムを実現するために,長い期間を費やして手動でチューニングする必要があり,生産性が問題となっている.このような中,生産性と性能を両立しうる機構としてトランザクショナルメモリ(TM)への関心が高まっている.TM はマルチコアプロセッサ向けに多く研究されてきたが,この機構を分散システムにも適用することで,分散メモリ型におけるプログラミングを単純にすることも可能であるという考えから,分散システムを対象とする分散トランザクショナルメモリ(DTM)が提案されているが,実用的な実装は未だ存在していない.我々は生産性と性能を両立する大規模並列計算基盤を実現するため DTM に着目し,生産性の高いプロトタイプを開発したが,性能面に改善の余地がある.そこで本稿では,DTM の性能を高めるためのソフトウェアキャッシュを設計および実装する.提案する DTM システムの有効性を確認するため,マイクロベンチマークおよび STAMP ベンチマークを用いて評価した結果,プロトタイプと比較してマイクロベンチマークでは 1.56倍,STAMP では 3.64 倍の高速化を確認した.
著者
井手上 慶 里見 優樹 津邑 公暁 松尾 啓志
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.113, no.169, pp.19-24, 2013-08-01

スマートフォンなどの普及に伴い,ガベージコレクション(GC)の性能が与える影響範囲が拡大している.一方, GCは主にアルゴリズム面で改良がなされてきたが, GC実行時のレスポンス低下など,重要な問題の根本的解決には未だ至っていない.そこで本稿では,多くのGCアルゴリズムがコールスタックを起点としてオブジェクトを探索する点に着目し,これを高速化するハードウェア支援手法を提案する.オブジェクトを探索する際には,コールスタック上の値からポインタを判別する必要がある.そこで,コールスタック上の全てのポインタを管理する専用の表を用いることで,従来のポインタ判別コストを削減しGCの高速化を実現する.シミュレーションによる評価の結果,提案手法がGCの高速化につながることを確認した.
著者
福嶋 慶繁 津邑 公暁 杉本 憲治郎
出版者
名古屋工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2017-04-01

計算機環境が複雑化している中,高度に最適化された機械語を得るためには,分野ごとに特化した専用プログラミング言語が必要不可欠である.しかし,最新の画像処理専用プログラミング言語でも,局所的な最適化しかできず,アルゴリズム全体の最適化は未だできない.本研究では,画像処理をデザインパターンとしてまとめ,多くのパターン集として体系化することともに,それをプログラミング言語として試作する.主に,画像処理は,FIRやIIRといった畳み込み,拡大縮小,点の処理の連続として表現され,これを効率的につなぐことで高速化可能であることを示した.さらにそれらを検証するために様々なアプリケーションで検証した.
著者
飯田 凌大 津邑 公暁
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2018-ARC-232, no.7, pp.1-9, 2018-07-23

トランザクショナルメモリ (TM) は,クリティカルセクションを含む一連の命令列をトランザクションとして定義し,これを投機的に並列実行することで,粗粒度ロックと同程度の記述性と,細粒度ロックと同等以上の性能とを両立しうるパラダイムとして期待されている.この TM をソフトウェア上に実装したソフトウェアトランザクショナルメモリ (STM) では一般に,論理タイムスタンプを用いて共有変数の一貫性を検証しているが,この手法はスケーラビリティに欠けるという問題がある.また,他の一貫性検証手法として共有変数別ごとのバージョン情報を用いるものがある.この手法は論理タイムスタンプを用いる手法に比べスケーラビリティに優れるが,トランザクション内で読み出す共有変数の個数の二乗に比例するオーバヘッドが発生するという問題がある.本稿では,実行時のスレッド数とトランザクション内で読み出す共有変数の個数とを基準とし,一貫性検証手法を適切なものへ動的に切り替えることで,STM のオーバヘッド抑制とスケーラビリティ向上との両立を目指す.提案手法を実装し,評価を行った結果,最大 27.0%,平均 15.3% の速度向上を達成した.
著者
山田遼平 橋本高志良 津邑公暁
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-211, no.1, pp.1-8, 2014-07-21

マルチコア環境では,共有変数へのアクセス調停のためにロックを用いることが一般的である.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これに代わる並行性制御機構としてトランザクショナルメモリ (TM) が提案されている.この機構のハードウェア実装であるハードウェア・トランザクショナルメモリ (HTM) では,アクセス競合が発生しない限りトランザクションが投機実行される.HTM では投機実行が失敗した場合,再び競合が発生することをを防ぐため,トランザクションの再実行までに待機時間を設定するアルゴリズムが採用されている.しかし,既存の待機アルゴリズムでは適切な待機時間を設定できていないため,再び競合が発生して投機実行の失敗が繰り返されることで,HTM の性能が著しく低下してしまう場合がある.本稿では,この待機アルゴリズムを改良し,トランザクションの実行状況に応じた待機処理を行うことで HTM を高速化する手法を提案する.シミュレーションによる評価の結果,提案手法により最大 59.9%,16 スレッドで平均 11.2%の高速化を確認した.
著者
間下 恵介 三宅 翔 山田 遼平 津邑 公暁
雑誌
研究報告システム・アーキテクチャ(ARC) (ISSN:21888574)
巻号頁・発行日
vol.2015-ARC-215, no.13, pp.1-10, 2015-05-19

マルチコア環境では,一般的にロックを用いて共有変数へのアクセスを調停する.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これを補完する並行性制御機構としてトランザクショナルメモリが提案されている.この機構をハードウェア上で実現したハードウェアトランザクショナルメモリではアクセス競合が発生しない限りトランザクションが投機的に実行される.しかし,共有変数に対する複合操作が行われるようなトランザクションが並行実行された場合,その際に発生するストールが無駄となる場合がある.そこで本稿では,このような複合操作を検出し,それに関与するトランザクションを排他実行する手法に加え,同一の共有変数に対してそれ以降変更が行われないと判断した時点で,他スレッドによる投機的アクセスを許可する手法を提案する.シミュレーションによる評価の結果,提案手法により 16 スレッド実行時において最大 67.2%,平均 13.9% の性能向上を達成した.
著者
井手上慶 河村慎二 津邑公暁
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-212, no.1, pp.1-9, 2014-09-29

スマートフォンなどの普及に伴い,ガベージコレクション (GC) の性能が与える影響範囲が拡大している.一方,GC は主にアルゴリズム面で改良がなされてきたが,GC 実行時のレスポンス低下など,重要な問題の根本的解決には未だ至っていない.これに対し我々は,ハードウェア支援により GC を高速化する手法をこれまでにいくつか提案しており,その有用性について検討してきた.本稿では,まず我々が提案している二つの手法を取り上げ,それぞれ評価結果を示すとともにその有用性について述べる.これらの手法はいずれも,GC における基本的な構成処理要素に着目し,その高速化を図るものである.その後,現在我々が取り組んでいるハードウェア支援を用いたコンパクション機能について述べる.コンパクション機能を実装している既存の GC アルゴリズムはいくつか存在しているが,オブジェクトの移動時には当該オブジェクトを参照しているポインタを張り替える必要があり,これは一般にコストが比較的大きい.そこで本手法では,オブジェクト間の参照関係を記憶する専用の表をプロセッサに追加し,これを利用することで高速なポインタの書き換え,およびコンパクション機能の実現を目指す.そして最後に,この手法により期待される効果について考察する.
著者
橋本高志良 井出源基 山田遼平 堀場匠一朗 津邑公暁
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-208, no.22, pp.1-8, 2014-01-16

マルチコア環境では,一般的にロックを用いて共有変数へのアクセスを調停する.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これに代わる並行性制御機構としてトランザクショナルメモリが提案されている.この機構のハードウェア実装であるハードウェアトランザクショナルメモリ (HTM) では,アクセス競合が発生しない限りトランザクションが投機的に実行される.しかし,共有変数に対する複合操作が行われるようなトランザクションが並行実行された場合,その際に発生するストールが完全に無駄となる場合がある.本稿では,このような同一の共有変数に対する Read→Write の順序でのアクセスを検出し,それに関与するトランザクションを排他実行することで,HTM の全体性能を向上させる手法を提案する.シミュレーションによる評価の結果,提案手法により 16 スレッド実行時において最大 72.2%,平均 17.5%の性能向上を達成した.
著者
山田遼平 堀場匠一朗 井出源基 橋本高志良 津邑公暁
雑誌
研究報告計算機アーキテクチャ(ARC)
巻号頁・発行日
vol.2014-ARC-208, no.23, pp.1-9, 2014-01-16

マルチコア環境における並列プログラミングでは,一般的にロックを用いて共有リソースへのアクセスを調停する.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これに代わる並行性制御機構としてトランザクショナルメモリ (TM) が提案されている.これをハードウェアで実現する HTM では,一般的にアクセス競合が発生した場合にトランザクションの実行を停止する必要があるため,一時的に並列度が低下してしまう.そこで本稿では,競合が発生したとしてもトランザクションの実行を停止させず,競合相手がコミットまで到達すると仮定して投機的に実行を継続することで並列度を増大させる手法を提案する.評価の結果,既存手法に比べて,最大 9.63%,16 スレッドで平均 1.74% の実行サイクル数の削減を確認した.
著者
橋本 高志良 江藤 正通 堀場 匠一朗 津邑 公暁 松尾 啓志
雑誌
先進的計算基盤システムシンポジウム論文集
巻号頁・発行日
vol.2013, pp.162-169, 2013-05-15

マルチコア環境では,一般的にロックを用いて共有変数へのアクセスを調停する.しかし,ロックには並列性の低下やデッドロックの発生などの問題があるため,これに代わる並行性制御機構としてトランザクショナル・メモリが提案されている.この機構においては,アクセス競合が発生しない限りトランザクションが投機的に実行されるため,一般にロックよりも並列性が向上する.しかし,Readafter-Readアクセスが発生した際に投機実行を継続した場合,その後に発生するストールが完全に無駄となる場合がある.本稿では,このような問題を引き起こすRead-after-Readアクセスを検出し,それに関与するトランザクションを敢えて逐次実行することで,全体性能を向上させる手法を提案する.シミュレーションによる評価の結果,提案手法により最大66.9%の高速化を確認した.
著者
江藤 正通 堀場 匠一朗 浅井 宏樹 津邑 公暁 松尾 啓志
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.5, no.5, pp.55-65, 2012-10-15

マルチコア環境における並列プログラミングでは,メモリアクセスの調停には一般にロックが用いられてきた.しかしロックを使用する場合,デッドロックの発生や並列性の低下などの問題がある.そこでロックを用いない並行性制御機構として LogTM が提案されている. LogTM では possible_cycle というフラグを用いて競合を解決する.しかし,この競合解決手法では starving writer が発生し,長期にわたるストールや競合の繰返しにより性能が大きく低下してしまう.そこで本稿では, starving writer の解決手法を提案する.提案手法の有効性を検証するためにシミュレーションによる評価を行った結果,既存の LogTM に比べて最大で 18.7%,平均で 6.6% の性能向上が得られることを確認した.
著者
堀場 匠一朗 江藤 正通 浅井 宏樹 津邑 公暁 松尾 啓志
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.5, no.5, pp.43-54, 2012-10-15

マルチコア環境における並列プログラミングでは,共有メモリへのアクセス制御にロックが広く用いられてきた.しかし,ロックには並列性の低下やデッドロックの発生などの問題がある.そこで,ロックを用いない並行性制御機構として,トランザクショナル・メモリが提案されている.このハードウェアによる一実装である LogTM においては, possible_cycle と呼ばれるフラグを用いてデッドロックの発生を検出する.しかしこの手法では,デッドロックの判定に偽陽性が存在し,アボートが過剰に発生する可能性がある.そこで本稿では, 3 者以上のトランザクション間の依存関係を考慮することでデッドロックを検出可能とする手法を提案し,さらに適切なアボート対象を選択する手法も検討する.シミュレーションによる評価の結果,提案手法によりアボートの発生が抑制され,ログの書き戻しコストなどが削減されることで,最大 31.5% の高速化を確認した.
著者
鈴木 郁真 池内 康樹 津邑公暁 中島 康彦 中島 浩
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.46, no.16, pp.129-143, 2005-12-15
被引用文献数
5

遺伝的アルゴリズムにおいて最も処理時間を要する適合度計算に対し,再利用を適用することで高速化する手法を提案し,再利用の有効性を示す.適合度計算の入力となる遺伝子が,前世代で処理された遺伝子と多くの共通部分を持つことから,適合度関数を分割することで再利用の効果を引き出す手法について述べる.GENEsYs を用いて評価した結果,2 点交叉で最大83%,平均27%のサイクル数を削減できた.さらに,関数分割などの改良を施すことにより,最大86%,平均38%までこれが向上した.特に適合度計算に要する時間が長い適合度関数について,再利用の効果がより大きくなることが分かった.This paper describes a speedup technique with computational reuse for the fitness calculation of GA programs. A genotype has many genes in common with its parental genotypes. Therefore, partial results of fitness calculation are reusable. Through the result of an evaluation with GENEsYs, a well-known GA software, we show that the maximum ratio of the cycle reduction reaches 83%, while accomplishing average reduction of 27% with 2-point crossover. Futhermore, dividing fitness procedures raises the maximum ratio to 86% and average ratio to 38%.
著者
中田 尚 津邑 公暁 中島 浩
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌. コンピューティングシステム (ISSN:03875806)
巻号頁・発行日
vol.46, no.12, pp.98-109, 2005-08-15
被引用文献数
3

集積回路技術の進歩にともない, マイクロプロセッサの構造は高度化・複雑化している.このような高度なマイクロプロセッサの研究・開発や, それを組み込んだ機器のハードウェア・ソフトウェア協調設計においては, その機能・性能を検証するためのcycle accurateなシミュレータが不可欠である.しかし, 現状のシミュレータは一般に低速であり, 開発の効率化の障害となっている.これに対して, スケジューリング計算の高速化によりシミュレータの高速化が提案され, 効果をあげている.一方で, スケジューリング計算が高速化することにより, 命令エミュレーションの実行時間がシミュレーション時間全体に占める割合が相対的に大きくなっており, シミュレーションのさらなる高速化のためには, 命令エミュレーションの高速化が課題となっている.本論文では, 個々のワークロードに対して最適化されたシミュレータを生成することにより, 命令エミュレーションの高速化を図る.これにより, 可搬性を損なうことなくバイナリ変換を適用した場合と同等の高速化を達成することができる.SPEC CPU95ベンチマークを用いて評価を行った結果, SimpleScalarのsim-fastに対して, 最大34倍, 平均19倍のシミュレーション速度の向上が確認できた.
著者
中田 尚 津邑 公暁 中島 浩
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. 計算機アーキテクチャ研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.2005, no.80, pp.97-102, 2005-08-03
被引用文献数
1

高度なマイクロプロセッサの研究・開発や, それを組み込んだ機器のハードウェア・ソフトウェア協調設計においては, その機能・性能を検証するためのcycle accurateなシミュレータが不可欠である.しかし, 既存のシミュレータは一般に低速であり, 開発の効率化の障害となっている.これに対して, スケジューリング計算の高速化や命令エミュレーションの高速化が提案され, 効果を上げている.一方, これらの実行時間短縮により, キャッシュシミュレーションの実行時間の割合が相対的に大きくなり, その短縮がシミュレーションのさらなる高速化のための課題となっている.本論文では, 個々のキャッシュに対して最適化されたシミュレータを生成することにより, キャッシュシミュレーションの高速化を図る.SPEC CPU95ベンチマークを用いて評価を行った結果, SimpleScalarのsim-cacheに対して, 最大14.1倍, 平均8.3倍のシミュレーション速度の向上が確認できた.