著者
長谷川 雄太 青木 尊之 小林 宏充 白﨑 啓太
出版者
一般社団法人 日本機械学会
雑誌
日本機械学会論文集 (ISSN:21879761)
巻号頁・発行日
vol.85, no.870, pp.18-00441, 2019 (Released:2019-02-25)
参考文献数
18

We implement and perform large-scale LES analysis for running groups of cyclists. The mesh-refined lattice Boltzmann method (LBM) and coherent-structure Smagorinsky model (CSM) are adopted for the simulations to achieve a high performance computing on the recent GPU supercomputer. In the simulation with 16 cyclists, the mesh spacing around cyclists is 4 mm, and the total number of the mesh is up to 8.1×108 and the number of GPUs utilized is up to 64. Each calculation took 4 or 5 days for the 8~11 seconds of physical duration. The flow around 16 cyclists in various arrangement is calculated, and the results show that the in-line arrangement is more effective than the rhomboid arrangement in the viewpoint of the total aerodynamic drag of the group; however, a specific person in rhomboid arrangement can obtain larger drag reduction and save the endurance. Results on two groups also suggest that the frontal group in rhomboid arrangement will be exploited as the wind protection of the backward groups.
著者
長谷川 雄太 青木 尊之 小林 宏充 白﨑 啓太
出版者
一般社団法人 日本機械学会
雑誌
日本機械学会論文集 (ISSN:21879761)
巻号頁・発行日
pp.18-00441, (Released:2019-02-07)
参考文献数
18

We implement and perform large-scale LES analysis for running groups of cyclists. The mesh-refined lattice Boltzmann method (LBM) and coherent-structure Smagorinsky model (CSM) are adopted for the simulations to achieve a high performance computing on the recent GPU supercomputer. In the simulation with 16 cyclists, the mesh spacing around cyclists is 4 mm, and the total number of the mesh is up to 8.1×108 and the number of GPUs utilized is up to 64. Each calculation took 4 or 5 days for the 8~11 seconds of physical duration. The flow around 16 cyclists in various arrangement is calculated, and the results show that the in-line arrangement is more effective than the rhomboid arrangement in the viewpoint of the total aerodynamic drag of the group; however, a specific person in rhomboid arrangement can obtain larger drag reduction and save the endurance. Results on two groups also suggest that the frontal group in rhomboid arrangement will be exploited as the wind protection of the backward groups.
著者
杉原 健太 青木 尊之
出版者
一般社団法人 日本計算工学会
雑誌
日本計算工学会論文集 (ISSN:13478826)
巻号頁・発行日
vol.2010, pp.20100018, 2010-12-03 (Released:2010-12-03)
参考文献数
20

GPUは演算性能が高いばかりでなくメモリバンド幅も広いため, CUDAのリリースによって格子系の流体計算などさまざまな分野でGPUを用いた高速計算の研究(GPGPU)が行われるようになっている. 本研究では流体の移流現象を記述する移流方程式に対して1次~6次精度有限差分法や5次精度WENO法を適用し, GPUによる実行性能の検証および評価, 複数GPUでの新たな並列計算方法の開発, 大規模高次精度移流計算の複数GPUを用いた並列計算での高速化と強スケーラビリティの検証を行う. 本研究は東京工業大学 学術国際情報センターのスーパーコンピュータ TSUBAME Grid Clusterを利用して行われた. NVIDIAのCUDAを用いてGPU上に実装する上で, 以下の方法を導入する. Global memoryへのアクセス回数を低減するためにx, y方向のデータをSM内のShared memoryをソフトウェアマネージド・キャッシュとして利用し, 各Thread内で閉じているz方向のデータはThread内の変数(Register ファイル)に格納し, 計算の高速化を図る. 3次元的に計算空間分割しBlockの数を増やすことでSMの並列実行効率を高める. 3次元領域分割法によるGPU並列計算により並列数の増加に伴い, 境界bufferのデータサイズを減少させ通信時間を短縮させる. 計算領域を7つのKernelに分け非同期実行することによる「計算Kernel, Device-Host間通信, MPI通信」3つのオーバーラップ技法を提案する.本論文では演算密度(flop/byte)と実行性能との関係に注目した評価を導入し, 低次から高次精度の差分を用いた移流計算を例に評価の妥当性を検証した. 高次精度手法は低次よりも演算密度が高く実行性能を引き出し易いことが明らかになった. また, GPU並列計算では3次元領域分割を使用し, 7個のstreamによる非同期実行によるkernel関数, MPI, Device-Host通信のオーバーラップ技法の提案をした. これらにより, 高次精度移流計算において60GPUで7.8TFlopsという非常に高い実行性能を達成した. 本研究によって以下の新しい知見が得られた. GPUの実行性能は演算密度(flop/byte)で有効な評価ができる. Shared memoryを用いたデータの再利用により演算密度は高くなり実行性能が向上する. 1GPUの実行性能が1CPU coreに比べて数十~百倍高速であり, 複数 GPUの場合はMPI通信に加えてDevice-Host間通信も必要になるため計算時間の中で通信時間の占める割合が高く, 高速化におけるボトルネックになる. 複数GPU計算において, 3次元領域分割が有効である. 本論文で提案した技法は移流計算に限らず直交格子でのさまざまなステンシル計算(例えば拡散方程,Jacobi法等の反復解法)にも適用可能であり, 汎用性が高いといえる.
著者
肖 鋒 青木 尊之
出版者
公益社団法人 応用物理学会
雑誌
応用物理 (ISSN:03698009)
巻号頁・発行日
vol.86, no.10, pp.904-909, 2017-10-10 (Released:2019-09-26)
参考文献数
9

流体シミュレーションとは,コンピュータにより流体現象を記述する数学モデル(流体方程式)の近似的な数値解を求めることです.本稿では代表的な数値解法である有限体積法を紹介し,いくつかの計算例とともに現状と今後の展開を解説します.
著者
青木 尊之 吉田 正典 奥村 晴彦 矢部 孝 塙 雅典 野澤 恵
出版者
東京工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2000

昨年度導入した20台のプレイステーション2 Linux kitで、並列の数値流体シミュレーションを行った。非圧縮性流体の場合、大量のネットワーク通信を伴うポアソン方程式の解法が最も大きな課題となる。並列化が容易なSOR法で2次中心差分法による離散化式と、局所補間微分オペレータ法による4次精度の離散化式を解いた。Linux kitに付属するGNUのコンパイラは、プレイステーション2のCPUであるEmotion Engine(EE)の高速化アーキテクチャを利用する最適化が行えず、インライン・アセンブラにより直接EEのベクトル・レジスタVU0を利用することにした。ベクトル・レジスタVU0を4並列で効率よく実行する必要があるが、メモリーからデータをロードするのに時間がかかり、その間はVU0が休んでしまう結果となった。これを回避するために、VU0の演算スケジュールを工夫し、データのロード・ストアを含めて450MFlopsの計算速度を達成した。プレイステーション2が高速のRAMBUSメモリーを用いているために、CPUキャッシュに入りきらないデータに対するアクセスに対しても余り速度が低下しないことが明らかになった。EEのもう一つの問題点として指摘されている「VU0が単精度演算しか行えないこと」を解決する必要がある。倍精度計算に対しては浮動小数点演算プロセッサが働かなくなり、計算速度は100分の一以下に低下してしまう。単精度計算で直接従属変数からポアソン方程式を計算すると桁落ちが生じてしまうので、残差から修正方程式を導出し修正量を求めて従属変数に加算・減算して修正する方法を開発した。修正方程式を解く際に桁落ちなどの誤差が入るが、反復ごとに修正値が小さな値に移行し、従属変数の精度範囲をまかなえることが明らかになった。非圧縮性流体の移流部分や圧縮性流体に対しては局所補間微分オペレータ法が少ないメモリーに対して高精度な計算を行うことができ、プレイステーション2に適していることが分かった。また、ルンゲクッタ時間積分を行うことにより安定な計算ができることが明らかになった。
著者
松下 真太郎 青木 尊之
出版者
一般社団法人 日本計算工学会
雑誌
日本計算工学会論文集 (ISSN:13478826)
巻号頁・発行日
vol.2018, pp.20180005, 2018-03-27 (Released:2018-03-27)
参考文献数
15

気液二相流の数値シミュレーションは, 未だに数値流体力学的課題の多いテーマである. 近年のコンピュータの著しい性能向上に伴って, 流体方程式と界面追跡の方程式を直接解くことによる解析がなされてきている. しかし, 格子を増やすと新たな水滴や気泡が生じるなど, 解の収束性に至る十分な格子解像度で計算することは非常に困難である. 一般に気液二相流は界面近傍が激しく運動し複雑な挙動を示すため, 界面挙動を精度よく捉えるためには多くの格子が必要である. 界面近傍をより高解像度で効率的に計算するために, 細かい格子が必要となる領域に格子を集めることのできるAdaptive Mesh Refinement (AMR) 法を気液界面に適用することが考えられる. 総格子点数を大幅に削減することができ, 界面近傍をより高解像度で計算することが可能となる. 直交格子上で界面を追跡する手法として, レベルセット法, VOF法が広く用いられてきた. しかし, 激しい流れでは液体よりVOF値は小さいが気体より大きな値を持つ領域が気体中を浮遊する問題などが生じてしまう. 近年, 新たなアプローチとして保存形フェーズフィールド法が提案されており, 本研究では界面捕獲手法として良い結果が報告されている保存形Allen-Cahn方程式を用いる. マルチモーメント法である保存形IDO法を用いて保存形Allen-Cahn方程式を解くことにより, 格子点上に変数を配置しながら気相と液相の質量保存性を担保する. 保存形マルチモーメント法では格子点上の値に加えて線積分値や面積分値といったモーメントが時間積分される変数として定義されている. レベル差補間の際にはコンパクトな領域で精度の高い補間関数を構築可能であり, AMR法に適した手法であると言える. また, 界面が時間とともに動く場合には保存形Allen-Cahn方程式の時間微分項に流束の微分項が加わる. フェーズフィールド変数に対する連続方程式と保存形Allen-Cahn方程式に分離して解くことにより, 連続方程式に対してはCIP-CSLR1法を, 保存形Allen-Cahn方程式には保存形IDO法を用いることができる. 分離した式はいずれも方向分離法で各々の方向に対する1次元の式を繰り返し解くことができ, 連続方程式の解法に精度の高いセミ・ラグランジアン法が適用可能である. AMR法適用に際しても1次元方向のみの補間を考えれば良くAMR法の実装が容易な手法となっている. 本論文では流束項付き保存形Allen-Cahn方程式をマルチモーメント法の解法を高精度で解くために, 木構造に基づいたAMR法により界面の時間的・空間的に追従する動的な適合格子細分化法を導入した. フェーズフィール変数が急激に変化する領域に細かい格子を動的に配置する. ベンチマーク問題としてSingle Vortex問題をレベル0から5までの格子細分化を行って計算し, 最も細かい格子解像度で均一格子を用いた場合と比較して平均で1/12.3に格子点数を削減することができ, 9.26倍に計算を高速化することができた. 界面形状も計算領域全体を均一に細かい格子で計算した場合と同じ精度が出ていることを確認した. マルチモーメント法を用いることによりコンパクトで高精度な補間関数を構築可能であるため, 界面が大変形するような問題に対しても高い精度で計算できる. 本論文の成果は, 気液界面に適合した動的な格子細分化による気液二相流計算に適用可能である.
著者
渡辺 勢也 青木 尊之 長谷川 雄太 河原 淳 橋本 博公
出版者
日本混相流学会
雑誌
混相流 (ISSN:09142843)
巻号頁・発行日
vol.33, no.1, pp.55-62, 2019-03-15 (Released:2019-04-08)
参考文献数
21
被引用文献数
1

Numerical simulations are powerful tools to study tsunami impacts on building structures. We have developed a CFD code for free-surface flows interacting with floating debris by using Lattice Boltzmann Method (LBM) and Discrete Element Method (DEM). Both methods are suitable for GPU computing and large-scale simulations because they are explicit time-integration schemes. In order to improve the accuracy and the stability of flow computation, the cumulant LBM model has been employed and coupled with the conservative Allen-Cahn equation for the purpose of free-surface capturing. A moving boundary approach based on the interpolated bounce-back scheme is utilized at liquid-solid interfaces. Rigid body dynamics of floating debris is computed by using DEM. A model constructed by multiple small spheres represents complex shapes of debris. We measure the weak scalability on multiple GPUs of the TSUBAME3.0 supercomputer, and the code achieved 83.4% parallel efficiency when scaled 16 to 256 GPUs. As a test case, we demonstrate a tsunami flow with driftwoods using 200×600×3000 lattice nodes and 24 GPUs Tesla P100, and the simulation has completed within 24 hours. The impact force of the driftwoods acting on the wall is about 15 times larger than only water. It shows that effects of driftwoods are important to evaluate the tsunami damage on building structures.
著者
青木 尊之 森口 周二 下川辺 隆史 高木 知弘 滝沢 研二
出版者
東京工業大学
雑誌
基盤研究(S)
巻号頁・発行日
2014-05-30

① AMR法を適用した複雑形状物体を含んだ非圧縮性単相流体(乱流LES)シミュレーション:格子ボルツマン法により、複雑形状を含んだ物体回りの流れとして、複数台の自転車を含む競技を想定した流れのシミュレーションを行った。計算のTime-to-Solutionを大幅に短縮するAMR法を適用した。また、検証として行った球周りの流れでは、レイノルズ数が50万程度で抗力が急激に低下するドラッグ・クライシスを再現することができた。②マルチ・フェーズフィールド法による動的領域分割:粒成長を並列計算の領域分割に適用し、時間発展させることで各領域の体積(計算負荷)を均一にしつつ、各領域が凸形状になるようにトポロジー最適化が行えることを確認した。これまでのスライス・グリッド法や空間重点曲線による領域分割と比較し、領域間通信量を低減できることを確認した。③AMR法による気液二相流シミュレーション:Octreeベース細分化によるAMRを用いて最細格子を気液界面に適合させ、弱圧縮性流体計算による気液二相流計算を行うことができるようになり、均一格子を使う場合と比較して1/100の格子点数で計算することができた。④流体-構造連成問題:物体適合格子における要素の消滅および出現させる手法を開発した。この手法の自由度を増すため、接触物の間に互いにスライド可能なメッシュに分割する手法を提案した。これにより接触位置が互いに変わる状況も再現できるようになり、これまでの物体適合格子の並列効率を保つことができる。⑤フェーズフィールド法による凝固と粒成長のシミュレーション:強制対流下で成長するデンドライト形態変化を詳細に検討した。また、自然対流を伴うデンドライト凝固シミュレーションを行い、自然対流が凝固組織を大きく変えることを明らかにした。800 GPUを用いた世界最大の理想粒成長シミュレーションを行い、理想粒成長の統計的挙動を初めて明らかにした。
著者
谷 啓二 飛田 健次 西尾 敏 飯尾 俊二 筒井 広明 青木 尊之
出版者
社団法人プラズマ・核融合学会
雑誌
プラズマ・核融合学会誌 (ISSN:09187928)
巻号頁・発行日
vol.80, no.11, pp.931-934, 2004-11-25
被引用文献数
1 1

Studies were made on ripple losses of fusion produced alpha particles in a low-aspect-ratio tokamak reactor (VECTOR) by using an orbit-following Monte-Carlo code. Alpha particles are well confined in VECTOR. In a low-aspect-ratio tokamak, the dependence of ripple losses on the number of toroidal-field (TF) coils N is very weak. Assuming a toroidal peaking factor of 2 for the heat load due to loss particles, about 1.5% and 1.0% of TF ripple at the outer edge of plasma might be allowable for the first wall with and without cooling system, respectively. In both cases, the number of TF-coils can be reduced to about 4.