著者
青山 健人 角田 将典 松崎 由理 石田 貴士 秋山 泰
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.9, no.2, pp.15-33, 2016-07-14

近年,次世代シーケンサなどに代表される実験技術の向上による爆発的な生物学データの増加に対応するため,スーパーコンピュータを用いた効率的なデータ解析,処理技術の開発は喫緊の課題となっている.ゲノム情報のうちタンパク質に翻訳されるエクソン領域の配列のみを網羅的に解析するエクソーム解析は,ゲノム配列全体を対象とする場合と比べて処理量は大幅に削減されるため効率的な解析が可能となるが,一方で将来の個別化医療に向けた解析では,数百人から千人規模のデータを現実的な時間で処理する必要があり,小型のPCクラスタでは処理が追いつかない大規模な解析が必要である.本研究では,理化学研究所のスーパーコンピュータ「京」上にエクソーム解析パイプラインを開発し,大規模エクソーム解析を目的とした生命情報解析環境を構築した.「京」上で実際に動作するエクソーム解析パイプラインの構築に加え,パイプラインの各処理でMPIによるMaster-Workerモデルでタスク分散処理を行うことで投入ジョブ数を軽減し,さらにタスクの分割などを改良することで,並列性能を改善して処理の高速化を図った.