著者
横田 理央
出版者
分子シミュレーション研究会
雑誌
アンサンブル (ISSN:18846750)
巻号頁・発行日
vol.14, no.2, pp.85-89, 2012-04-30 (Released:2013-04-30)
参考文献数
11

Treecode やFMM などのアルゴリズムはN 個の粒子同士の相互作用の計算量を精度と引き換えにO(N2) からO(N logN) もしくはO(N) に軽減することができる.これらの手法では,粒子をセルに分割し木構造を構築した後,その木構造を走査しながらセル単位で相互作用を計算する.このとき,木構造の走査は並列化が容易でありGPU 上での計算に向いているが,木構造の構築はGPU への実装の際に多少の工夫を要する.ここでは,GPU 上での木構造の構築の一例を示すとともに,性能向上に必要なアルゴリズム上の工夫に関する検討を行う.
著者
大友 広幸 横田 理央
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2021-HPC-180, no.7, pp.1-9, 2021-07-13

NVIDIA TensorCore は最大 300TFlop/s 以上の性能を持つ混合精度行列積演算回路である.TensorCore は深層学習からの高い行列積需要に対応するために開発されたが,線型方程式の反復解法やフーリエ変換など,深層学習以外の分野への応用も研究されている.密行列積計算も深層学習に限らず幅広い分野において重要な計算である.TensorCore は入力として半精度(FP16)行列をとるため,これを用いて単精度(FP32)密行列積計算を行う場合は,はじめに入力行列を半精度へ変換する必要がある.しかしこの操作によって単精度度行列積の計算精度が劣化する.そこで入力行列を半精度へ変換する際に失われる仮数部を別の FP16 変数で保持し,これを用いて単精度行列積の計算精度を補正する手法が考案された.この手法では単精度演算器を用いた行列積と比較して高速に計算可能ではあるが,誤差の蓄積が大きく計算精度が悪いという問題が確認されている.本研究ではこの誤差蓄積の原因となる 2 つの問題に着目し,それらの改善を行うことで,単精度演算器で計算した場合と同等の計算精度でより高速な単精度行列積手法を開発した.この手法をオープンソースの行列積ライブラリである NVIDIA CUTLASS に実装し,様々な入力行列での計算精度・計算性能の評価を行った.計算性能では 40TFlop/s 以上の性能を実現した.
著者
長沼 大樹 横田 理央
雑誌
第81回全国大会講演論文集
巻号頁・発行日
vol.2019, no.1, pp.315-316, 2019-02-28

深層学習では極めて膨大な学習データを用いて学習することで他の機械学習手法を圧倒する高い性能を発揮している一方, その膨大な計算時間のため,大規模並列化によって学習時間を短縮するのが喫緊の課題である. 深層学習における問題は訓練データとの誤差を表す関数の最小化問題に帰結するが, 近年の研究によって,大規模並列化に伴うバッチサイズの増加により得られる学習モデルの汎化性能が劣化することが示されている. 本研究ではこの問題の解決方法として目的関数に対する平滑化に着目し, バッチサイズの増加を伴っても汎化性能を劣化させない目的関数の平滑化手法について検証を行う.
著者
中田 光 大沢 和樹 横田 理央
雑誌
第81回全国大会講演論文集
巻号頁・発行日
vol.2019, no.1, pp.461-462, 2019-02-28

深層学習は与えられた膨大なデータに対し柔軟な学習を可能にする一方、学習を汎化させ未知のデータに対しても精度を保つことが一つの大きな課題となる。近年では、ベイズ推定を深層学習に適用し、学習によって得られたニューラルネットワークの重みの不確かさを推定することにより学習を汎化させる試みが注目されつつある。Zhangらによって提案されたNoisy K-FACは、自然勾配法に基づく一種の変分推論を行うことによりベイズ推定を行う手法であり、学習が汎化することが示されている。本研究ではNoisy K-FACに着目し、重みの更新時に複数のサンプルを用いた場合の学習の変化ついて比較検証を行った。