著者
青山 健人 角田 将典 松崎 由理 石田 貴士 秋山 泰
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.9, no.2, pp.15-33, 2016-07-14

近年,次世代シーケンサなどに代表される実験技術の向上による爆発的な生物学データの増加に対応するため,スーパーコンピュータを用いた効率的なデータ解析,処理技術の開発は喫緊の課題となっている.ゲノム情報のうちタンパク質に翻訳されるエクソン領域の配列のみを網羅的に解析するエクソーム解析は,ゲノム配列全体を対象とする場合と比べて処理量は大幅に削減されるため効率的な解析が可能となるが,一方で将来の個別化医療に向けた解析では,数百人から千人規模のデータを現実的な時間で処理する必要があり,小型のPCクラスタでは処理が追いつかない大規模な解析が必要である.本研究では,理化学研究所のスーパーコンピュータ「京」上にエクソーム解析パイプラインを開発し,大規模エクソーム解析を目的とした生命情報解析環境を構築した.「京」上で実際に動作するエクソーム解析パイプラインの構築に加え,パイプラインの各処理でMPIによるMaster-Workerモデルでタスク分散処理を行うことで投入ジョブ数を軽減し,さらにタスクの分割などを改良することで,並列性能を改善して処理の高速化を図った.
著者
大上 雅史 松崎 由理 松崎 裕介 佐藤 智之 秋山 泰
雑誌
情報処理学会論文誌数理モデル化と応用(TOM) (ISSN:18827780)
巻号頁・発行日
vol.3, no.3, pp.91-106, 2010-10-25

タンパク質間相互作用 (Protein-Protein Interaction,PPI) に関するネットワークの解明は,細胞システムの理解や構造ベース創薬に重要な課題であり,網羅的 PPI 予測手法の確立が求められている.タンパク質立体構造データ群から網羅的に相互作用の可能性を予測するために,我々は立体形状の相補性と物理化学的性質に基づくタンパク質ドッキングの手法を研究してきた.本研究のプロジェクトの一環として新たに開発した MEGADOCK システムは,高速なドッキング計算を行うための様々な工夫を取り入れており,なかでも rPSC スコアと呼ぶスコア関数は,既存ツールの ZDOCK と比べて同等の精度を維持しながらも約 4 倍の速度向上を実現し,網羅的計算を現実のものとした.本論文では MEGADOCK システムの構成および計算モデルについて述べる.ベンチマークデータセットに適用した結果,従来手法を大きく上回る最大 F 値 0.415 を得た.さらにシステム生物学の典型的な問題の 1 つである細菌走化性シグナル伝達系のタンパク質群に MEGADOCK を応用した.その結果,既知の相互作用の再現をベンチマークデータと同等の精度 (F 値 0.436) で行うことに成功し,かつ生物学的に相互作用の可能性が高い組合せであるにもかかわらず,現在までに報告されていないものとして,CheY タンパク質と CheD タンパク質の相互作用の可能性を示唆した.
著者
藤原 隆之 松崎 由理 石田 貴士 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.19, pp.1-3, 2012-06-21

タンパク質間ドッキング予測ソフトウェア "MEGADOCK" では,目的関数に形状相補性と静電相互作用の 2 つの項を用いているが,その最適なバランスは対象毎に一定ではなく,それを決定することは困難である.そのため,先行研究として予測精度改善のため目的関数のうち静電相互作用項の重みをタンパク質の表面電荷等の特徴から動的に調整する手法が提案されたが,いくつかの問題を含んでいた.そこで,本研究では従来手法の再検証を行い,サポートベクター回帰を用いた改良を提案する.改良された手法では従来使用されたデータセットにおいて予測性能の向上が確認され,その上で新たなデータセットへの適用も行った。The protein-protein docking software "MEGADOCK" uses the two terms in its target function; shape complementarity and electrostatic. However, the optimal balance between those two terms is defferent for each protein. Thus, dynamic adjustment of the weight of the electrostatic term based on the surface charge of a protein was proposed in a previous work. In this work, we improved the method by using support vector regression and additional characteristics of a protein. By using our new method, we achieved the better prediction performance for the data used in the previous study. We also applied the method to new data set.