著者
井手口 裕太 大野 善之 石坂 一久
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2020-HPC-173, no.15, pp.1-6, 2020-03-09

Top-N 推薦のための高精度かつ高速なアルゴリズムである SLIM のベクトル演算を用いた高速化手法を提案する.Top-N 推薦は,過去の購入履歴などを学習することでユーザーに推薦するアイテムを決定する問題であるが,膨大なデータを利用する学習時間の短縮が求めらている.SLIM はスレッド並列化が考慮されたアルゴリズムであるが,高性能ベクトルコンピュータ SX-Aurora TSUBASA で高速化するには,効率的なベクトル演算手法を開発する必要があった.本稿では,SLIM の主要処理に対するベクトル演算手法を提案し,SX-Aurora を用いた高速化を可能とする.Top-N 推薦でよく利用される MovieLens データセットを用いた評価では,提案する SX-Aurora を用いた SLIM は,2 ソケット Xeon に比べて 3.3 倍の高速であることを確認した.
著者
石坂 一久 大野 善之 Sourav Saha 大道 修 小寺 雅司 荒木 拓也
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC) (ISSN:21888841)
巻号頁・発行日
vol.2022-HPC-187, no.9, pp.1-6, 2022-11-24

データフレームコンパイラを搭載し利便性と高速性の両方を実現するデータフレーム用 Python ライブラリ Ducks を紹介する.データフレームは,github で 35K star を誇る Pandas に代表されるように,データ分析や前処理に広く用いられているが,データ量の増大や分析の複雑化により高速化が求められている.Ducks は HPC で培われてきた実行時コンパイル技術を用いることで,ライブラリ呼び出しを直接実行するのではなく,データフーム用の中間言語(IR)を生成して遅延実行を行う方式を採用している.これにより API とその実行を分離し,Pandas 互換の API を提供しながら,IR 上でのドメイン特化の最適化,ターゲットプラットフォームに最適化されたバックエンドによる IR 実行により高速性も実現する.ベンチマーク集である TPCx-BB,TPC-H に含まれる 45 種類のデータ前処理・分析処理を用いた CPU 上での評価では,ライブラリを選択する impor t文の変更のみで,Pandas に対して最大 17 倍,平均 5.8 倍の性能向上を得ることができ,本方式の有効性を確認した.
著者
大野 善之 堀 敦史 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011-HPC-132, no.34, pp.1-6, 2011-11-21

並列ジョブにおける多数ファイルに対する I/O をひとつのファイルに対する I/O に集約することによりファイル I/O を高速化する方式を提案する.各プロセスごとにファイルを作成し,データを書き出すというファイル I/O パターンをとるアプリケーションが多くある.しかし,現在普及している並列ファイルシステムは,少数の大きなデータ I/O で高い性能がでるように設計されており,プロセスごとにファイルを作成するという I/O パターンでは高い性能がでない.そこで,並列ジョブにおけるファイル I/O をひとつのファイルに集約し,少数の大きなデータ I/O にする方式を提案する.Lustre 上で予備評価を行った結果,並列プロセスがそれぞれ 1MB のファイルを 128 個 I/O する場合,2-3 倍の性能向上を確認した.
著者
堀 敦史 山本 啓二 大野 善之 今田 俊寛 亀山 豊久 石川 裕
雑誌
研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2011, no.6, pp.1-8, 2011-07-20

エクサスケールを視野に置いた、メモリや通信の遅延を隠蔽するための新しいマルチスレッドライブラリを提案する。そのためにはサブマイクロ秒でのスレッド制御を可能にする必要がある。本稿では、スレッドスケジューリングとして、プロセッサの Simultaneous Multi-Threading 機能を用い、ハードウェアによる高速なスレッドスケジューリングを用い、また、スレッド間の同期機構として Intel 製のプロセッサが提供する monitor/mwait 命令を用いた新しいスレッドライブラリ、Shadow Thread を提案する。高速な同期と低消費電力を両立させるため、同期フラグを spin-waitとmonitor/mwait 命令を組み合わせた 2-phase の同期機構が有効であることを示す。この方式を用いて開発された Shadow Thread は、メモリ領域のコピーにおいて、最大約 20% の高速化に成功した。Towards the Exa-scale computing, a new thread library is proposed to hide the latencies of memory and communication. For this purpose, thread management must be fast enough in the order of sub-micro seconds. In this paper, the thread library, named Shadow Thread, is developed so that it utilizes Simultaneous Multi-Threading mechanism which schedules threads by hardware in a very fast way and utilizes the monitor and mwait instructions supported by some Intel processors. It is shown that the two-phase synchronization technique combining the conventional spin-wait method and the pair of the monitor/mwait instructions can satisfy the requirement of speed and low-power consumption simultaneously. Evaluation shows that a memory copy function using the Shadow Thread library can exhibit better performance up to 20% compared with the normal memcpy function.