著者
菱沼 利彰 藤井 昭宏 田中 輝雄 長谷川 秀彦
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.7, no.4, pp.25-33, 2014-12-16

高精度演算を用いることでKrylov部分空間法の収束を改善できるが,高精度演算はコストが高いことが知られている.高精度演算の1つに,倍精度を2つ組み合わせて4倍精度演算を行う倍々精度演算がある.我々は,IntelのSIMD拡張命令であるAVX2を用いてBCRS形式の倍精度疎行列と倍々精度ベクトルの積(DD-SpMV)の高速化を行った.AVX2を用いたCRS形式のDD-SpMVでは,各行で端数処理などを必要とするが,BCRS形式は端数処理をなくし,メモリアクセスを改善できる.しかし,BCRS形式は演算量が増加する.本論文では,AVX2に適したBCRS形式のブロックサイズと,増加した演算量と端数処理の削減,メモリアクセスの改善効果のトレードオフについて示した.実験の結果,AVX2に最も適したブロックサイズは4×1であることが分かった.また,メモリアクセスの改善効果はサイズの大きい問題ほど有効で,行列サイズが10 5以上のとき,演算量が3.3倍以上になるケースにおいても,BCRS4×1にすることでCRS形式の実行時間を約45%に短縮できることを確認した.
著者
坂本真貴人 藤井昭宏 田中輝雄
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013-HPC-138, no.6, pp.1-7, 2013-02-14

行列行列積を計算する DGEMM の性能は,さまざまな科学技術計算において重要である.DGEMM の高速化の手法の 1 つに Strassen のアルゴリズムがある.これは再帰的アルゴリズムであり,適用する回数を増やすことで計算量を O(N3) から O(Nlog7) まで削減することができる.しかし,計算機や行列サイズに合わせた適切な回数を選択しないと高速化できない.本研究では,Strassen のアルゴリズムを,自動チューニング機能付きの線形代数ライブラリである ATLAS をベースにして組み合わせた.そして,最適な適用回数を自動的に選択する機能をもつ行列行列積計算ライブラリを試作し,計算性能の評価を行った.実験の結果,さまざまな行列サイズで ATLAS 単体より高い性能を引き出すことができた.また,通常の方法に比べて誤差がどの程度になるか確認した.
著者
佐藤真之介 菱沼利彰 藤井昭宏 田中輝雄
雑誌
第76回全国大会講演論文集
巻号頁・発行日
vol.2014, no.1, pp.215-216, 2014-03-11

大規模な疎行列を扱う数値計算において,疎行列のデータ格納形式の一つとして圧縮行格納形式(CRS)が用いられている.疎行列の形状によっては,CRSのデータ構造をブロック化して保持するブロック圧縮行格納形式(BCRS)に変換し扱うことにより,行列計算を高速化することができる.本研究では,標準ベンチマークであるフロリダコレクションの有用なすべての疎行列に対して,AVXを用いてBCRSの疎行列ベクトル積の計測を行い,性能を決定するパラメタについて分析を行うことにより,AVXで行うBCRSの効果を示した.また,AVXを用いたBCRSの疎行列ベクトル積の性能は,CRSの疎行列ベクトル積の性能と比較して,全体で70%高速化でき,高速化したときの倍率は平均1.1倍であった.
著者
戸田 敬太 熊谷 洋佑 藤井 昭宏 田中 輝雄
雑誌
第77回全国大会講演論文集
巻号頁・発行日
vol.2015, no.1, pp.255-256, 2015-03-17

巡回セールスマン問題には様々な解法が存在し,その一つに進化的計算であるカッコウ探索(CS:Cuckoo Search)がある.CSは,カッコウの繁殖行動である托卵にレヴィフライトを組み合わせたアルゴリズムである.レヴィフライトは,ほとんどが規則性のない短距離の移動だが,時折長距離の移動をするランダムウォークである.本研究では,初期生成段階での精度を上げることで,従来のCSよりも精度の高い解を得られると考え,局所探索法である2opt法を組み合わせたCS-2optを提案する. この手法でTSPLIBのeil51とa280を解いた結果,従来のCSに比べ,より精度の高い解を得た.
著者
坂本 真貴人 藤井 昭宏 田中 輝雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.97, no.3, pp.405-413, 2014-03-01

さまざまな科学技術計算で用いられる行列行列積計算の高速化手法の一つに,Strassenのアルゴリズムがある.これは1回の適用で計算量を約7/8に削減するアルゴリズムである.また,このアルゴリズムは再帰的に適用することができ,段数(Strassenの適用回数)を増やすことで計算量をO(N^3)からO(N^<log_2 7>)まで削減できる.高速化のためには,計算機環境に合わせて適切な段数を選択する必要がある.適切な段数は行列サイズごとに決まるのでチューニングに多くの時間を要する.本研究では,線形代数ライブラリATLASをベースとしたStrassenの段数を自動チューニングする行列積計算ライブラリSAT Lib(Strassen Auto Tuning Library)を試作した.SAT LibではStrassen及びATLASの特性を利用し,チューニングにかかる時間を削減する.SAT Libの評価を行った結果,全行列サイズを計測する場合に比べXeon X5660上で約1/61,Intel Core i7 2600上では約1/53までチューニング時間を削減できた.