著者
菱沼 利彰 藤井 昭宏 田中 輝雄 長谷川 秀彦
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.7, no.4, pp.25-33, 2014-12-16

高精度演算を用いることでKrylov部分空間法の収束を改善できるが,高精度演算はコストが高いことが知られている.高精度演算の1つに,倍精度を2つ組み合わせて4倍精度演算を行う倍々精度演算がある.我々は,IntelのSIMD拡張命令であるAVX2を用いてBCRS形式の倍精度疎行列と倍々精度ベクトルの積(DD-SpMV)の高速化を行った.AVX2を用いたCRS形式のDD-SpMVでは,各行で端数処理などを必要とするが,BCRS形式は端数処理をなくし,メモリアクセスを改善できる.しかし,BCRS形式は演算量が増加する.本論文では,AVX2に適したBCRS形式のブロックサイズと,増加した演算量と端数処理の削減,メモリアクセスの改善効果のトレードオフについて示した.実験の結果,AVX2に最も適したブロックサイズは4×1であることが分かった.また,メモリアクセスの改善効果はサイズの大きい問題ほど有効で,行列サイズが10 5以上のとき,演算量が3.3倍以上になるケースにおいても,BCRS4×1にすることでCRS形式の実行時間を約45%に短縮できることを確認した.
著者
坂本真貴人 藤井昭宏 田中輝雄
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2013-HPC-138, no.6, pp.1-7, 2013-02-14

行列行列積を計算する DGEMM の性能は,さまざまな科学技術計算において重要である.DGEMM の高速化の手法の 1 つに Strassen のアルゴリズムがある.これは再帰的アルゴリズムであり,適用する回数を増やすことで計算量を O(N3) から O(Nlog7) まで削減することができる.しかし,計算機や行列サイズに合わせた適切な回数を選択しないと高速化できない.本研究では,Strassen のアルゴリズムを,自動チューニング機能付きの線形代数ライブラリである ATLAS をベースにして組み合わせた.そして,最適な適用回数を自動的に選択する機能をもつ行列行列積計算ライブラリを試作し,計算性能の評価を行った.実験の結果,さまざまな行列サイズで ATLAS 単体より高い性能を引き出すことができた.また,通常の方法に比べて誤差がどの程度になるか確認した.
著者
中村 一平 奥田 昌之 鹿毛 治子 國次 一郎 杉山 真一 藤井 昭宏 松原 麻子 丹 信介 芳原 達也
出版者
山口大学医学会
雑誌
山口医学 (ISSN:05131731)
巻号頁・発行日
vol.53, no.6, pp.279-289, 2004-12-31
被引用文献数
1 1

【目的】現在まで高齢者の介護予防や体力増進に関する多くの研究が行われているが,コントロール群との比較を行っているものは数少ない.今回,運動介入の効果を検証するため,同一町内に居住し,同じ介護老人福祉施設で同じサービスを受けている高齢者を居住地区と通所曜日により2群に分け,対照群をおき非介入期間を設け運動介入時期をずらしてクロスオーバー研究を行った.【方法】ある介護老人福祉施設の「生きがい活動支援通所事業」の参加者に,研究調査に関して文書で説明を行い,書面で同意を得た女性25名(80.3±3.4歳)を対象とした.2003年6月〜2004年1月に,介入先行群10名に3ヵ月間に5回の運動介入を行い,3ヵ月後に介入する群を入替え,介入後行群15名に同様の運動介入を行った.また,介入期間中はホームプログラムを促した.運動は特別な道具が要らず簡単なものとし,ウォーミングアップ5分,ストレッチング15分,筋力増強15分,クールダウン5分の計40分間で,デイサービスの時間に行った.測定項目は,握力,背筋力,10m歩行速度・歩数,40・30・20cm台からの立ち上がり,40cm台昇降,開眼・閉眼片足立ち,タンデム歩行安定性,Danielsらの徒手筋力検査法,老研式活動能力指標とした.【結果と結論】クロスオーバー研究でコントロールとなる非介入期間と比べて介入期間のトレーニング実施により背筋力(p=0.032)が増強した.介入期間の前後では背筋力の他に,股関節屈曲力,膝関節屈曲力・伸展力,足関節底屈力が増加したが,これらも非介入期間と比較すると有意差はなかった.クロスオーバー研究の制限はあるが,地域高齢者のデイサービス利用者で平均80歳の高年齢の場合には,月2回の運動指導のみで自宅でのトレーニングを促しても身体能力の向上という効果はでにくいと考えられる.
著者
佐藤真之介 菱沼利彰 藤井昭宏 田中輝雄
雑誌
第76回全国大会講演論文集
巻号頁・発行日
vol.2014, no.1, pp.215-216, 2014-03-11

大規模な疎行列を扱う数値計算において,疎行列のデータ格納形式の一つとして圧縮行格納形式(CRS)が用いられている.疎行列の形状によっては,CRSのデータ構造をブロック化して保持するブロック圧縮行格納形式(BCRS)に変換し扱うことにより,行列計算を高速化することができる.本研究では,標準ベンチマークであるフロリダコレクションの有用なすべての疎行列に対して,AVXを用いてBCRSの疎行列ベクトル積の計測を行い,性能を決定するパラメタについて分析を行うことにより,AVXで行うBCRSの効果を示した.また,AVXを用いたBCRSの疎行列ベクトル積の性能は,CRSの疎行列ベクトル積の性能と比較して,全体で70%高速化でき,高速化したときの倍率は平均1.1倍であった.
著者
戸田 敬太 熊谷 洋佑 藤井 昭宏 田中 輝雄
雑誌
第77回全国大会講演論文集
巻号頁・発行日
vol.2015, no.1, pp.255-256, 2015-03-17

巡回セールスマン問題には様々な解法が存在し,その一つに進化的計算であるカッコウ探索(CS:Cuckoo Search)がある.CSは,カッコウの繁殖行動である托卵にレヴィフライトを組み合わせたアルゴリズムである.レヴィフライトは,ほとんどが規則性のない短距離の移動だが,時折長距離の移動をするランダムウォークである.本研究では,初期生成段階での精度を上げることで,従来のCSよりも精度の高い解を得られると考え,局所探索法である2opt法を組み合わせたCS-2optを提案する. この手法でTSPLIBのeil51とa280を解いた結果,従来のCSに比べ,より精度の高い解を得た.
著者
坂本 真貴人 藤井 昭宏 田中 輝雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.97, no.3, pp.405-413, 2014-03-01

さまざまな科学技術計算で用いられる行列行列積計算の高速化手法の一つに,Strassenのアルゴリズムがある.これは1回の適用で計算量を約7/8に削減するアルゴリズムである.また,このアルゴリズムは再帰的に適用することができ,段数(Strassenの適用回数)を増やすことで計算量をO(N^3)からO(N^<log_2 7>)まで削減できる.高速化のためには,計算機環境に合わせて適切な段数を選択する必要がある.適切な段数は行列サイズごとに決まるのでチューニングに多くの時間を要する.本研究では,線形代数ライブラリATLASをベースとしたStrassenの段数を自動チューニングする行列積計算ライブラリSAT Lib(Strassen Auto Tuning Library)を試作した.SAT LibではStrassen及びATLASの特性を利用し,チューニングにかかる時間を削減する.SAT Libの評価を行った結果,全行列サイズを計測する場合に比べXeon X5660上で約1/61,Intel Core i7 2600上では約1/53までチューニング時間を削減できた.
著者
水上 忠彦 藤井 昭宏 小柳 義夫
出版者
情報処理学会
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21862583)
巻号頁・発行日
vol.2011, no.9, pp.1-5, 2011-03-08

本研究では,MPI/OpenMPハイブリッド並列モデルをAMG法に適用させた。領域分割によりMPI化し,マルチカラーガウスザイデル法によりOpenMP化を行った.特に,Reorderingによるメモリアクセスの効率化,First Touch,NUMAコントロールの三つの組み合わせを最適化し高速化を図った.評価にはT2Kオープンスパコン(東大)を利用し,評価した結果,MPI/OpenMPハイブリッド並列モデルがFlatMPIのピーク性能の1.5倍程度の性能を示し,並列度によらず,Flat MPIと同等かそれ以上の性能を発揮することが分かった.We applied and evaluated MPI/OpenMP hybrid programing model for Algebraic Multigrid (AMG) method on T2K Open Supercomputer (Tokyo). We used domain decomposition for MPI and multi-color Gauss-Seidel method for OpenMP. Our implementation uses Re-ordering, First touch, and NUMA control for better performance. Numerical tests show that the hybrid model of AMG solver 1.5 times faster than flat MPI model, and that optimized version of the hybrid model AMG solver is faster than flat MPI model for all parallelism.