著者
鈴木 脩司 石田 貴士 秋山 泰
出版者
情報処理学会
雑誌
研究報告バイオ情報学(BIO) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.20, pp.1-6, 2010-12-09

近年,DNA 配列等の配列決定技術の向上により高速に配列データを得ることが可能となった.これにより DNA 配列及びタンパク質配列のデータベースのデータ量が爆発的に増加している.このため大量の配列データに対して巨大な DB への相同性検索を行う機会が多くなってきてる.しかし,大規模なデータを用いた相同性検索では,BLAST など従来のツールでは解析が間に合わないという問題がある.本研究では Suffix Array を用いてクエリのインデックスを,FM-index を用いて DB のインデックスを構築し,これらのインデックスを用いてミスマッチをある程度許して短い領域で高いスコアとなる部分を見つけ,その部分の周辺をアラインメントするアルゴリズムを提案した.その結果,従来用いられてきた BLAST 以上の精度を保ったまま,約 10 倍の高速化を達成した.In recent years, a lot of biological sequence data can be determined easily and the size of DNA/protein sequence databases is increasing explosively because of the improvement of sequencing technologies. However, such a huge sequence data causes a problem that even general homology search analyses by using BLAST become difficult in terms of the computation cost. Therefore, we designed a new homology search algorithm that finds alignment candidates based on the suffix array of queries and the FM-index of a database. As results, the proposed method achieved about 10-fold speed up than BLAST.
著者
青山 健人 角田 将典 松崎 由理 石田 貴士 秋山 泰
雑誌
情報処理学会論文誌コンピューティングシステム(ACS) (ISSN:18827829)
巻号頁・発行日
vol.9, no.2, pp.15-33, 2016-07-14

近年,次世代シーケンサなどに代表される実験技術の向上による爆発的な生物学データの増加に対応するため,スーパーコンピュータを用いた効率的なデータ解析,処理技術の開発は喫緊の課題となっている.ゲノム情報のうちタンパク質に翻訳されるエクソン領域の配列のみを網羅的に解析するエクソーム解析は,ゲノム配列全体を対象とする場合と比べて処理量は大幅に削減されるため効率的な解析が可能となるが,一方で将来の個別化医療に向けた解析では,数百人から千人規模のデータを現実的な時間で処理する必要があり,小型のPCクラスタでは処理が追いつかない大規模な解析が必要である.本研究では,理化学研究所のスーパーコンピュータ「京」上にエクソーム解析パイプラインを開発し,大規模エクソーム解析を目的とした生命情報解析環境を構築した.「京」上で実際に動作するエクソーム解析パイプラインの構築に加え,パイプラインの各処理でMPIによるMaster-Workerモデルでタスク分散処理を行うことで投入ジョブ数を軽減し,さらにタスクの分割などを改良することで,並列性能を改善して処理の高速化を図った.
著者
吉川 舜亮 石田 貴士 関嶋 政和 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2013-BIO-34, no.1, pp.1-7, 2013-06-20

近年,次世代シーケンサの開発により大量のゲノム情報を高速かつ低価格で読み取ることが可能となった一方で,一度に読み取ることができるリードの長さが第一世代のシーケンサが数百塩基であるのに比べて第二世代以降のシーケンサでは数十から百数十塩基と短くなっており,それに伴って様々なショートリード向けのアセンブラが考案されている.本研究では,まず高速,省メモリのアセンブラとして近年提案された Sparse Assembler の性能評価を行い,主に最大メモリ使用量,実行時間の面で優れる一方で,出力されるコンティグの質は他のアセンブラに劣ることを確認した.そこで本研究では多くの研究で使用実績のある Velvet にこのアルゴリズムを適用することで,Velvet のアルゴリズムを基本としながらも従来のものより短時間かつ少ないメモリ使用量のアセンブラを実装することを目指した.
著者
鈴木 脩司 石田 貴士 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.24, pp.1-7, 2012-06-21

我々は以前に suffix array を用いた高速な相同性検索システムを提案したが,近年の次世代シークエンサーの進歩が目覚ましく,得られる配列データは増加しており,さらなる高速化が必要とされている.このため,本研究では従来システムの改良を試み,長さ L hash のすべての文字列の suffix array の検索結果を予め計算しておき,これを保存しておく.そして,検索の際は L hash 文字目までの検索には保存しておいたものを読み出すことで高速化した.また,このシステムを用いてエピゲノム解析へも対応するために,バイサルファイト処理を行った DNA 断片配列のマッピングができるように改良を行った.We developed the system for fast homology search using suffix array. However, next generation sequencers are improving gradually and become to produce larger data than previous sequencers. Thus, we have developed a new faster system. To accelerate search using suffix array, we store the results of searching patterns whose length is less than Lhash and use them as caches. In addition, we enhanced our system to map bisulfite reads for epigenomics.
著者
蓮実梢 石田貴士 秋山泰
出版者
一般社団法人情報処理学会
雑誌
研究報告バイオ情報学(BIO) (ISSN:09196072)
巻号頁・発行日
vol.2014, no.34, pp.1-7, 2014-06-18

標的となるタンパク質を定めて行う薬剤開発において,薬剤標的タンパク質の選定はとても重要となる.この標的タンパク質探索には,既に病原体のゲノム情報等を利用して探索を行うための統合的なデータベースシステムが提案されてきたが,その生化学経路情報については統合の対象とされていなかった.しかし,この情報を用いることであるタンパク質が病原体の生命維持に対して致命的であるかという議論が可能となるため,生化学経路情報の統合は標的タンパク質の探索のために有用であると考えられる.そこで本研究では,顧みられない熱帯病の新薬の標的タンパク質を探索するための統合データベースシステム iNTRODB に,トリパノソーマ科寄生原虫に関する生化学経路情報を追加し,またそこにゲノム等に関連する情報を表示するインタフェースを開発することで,標的タンパク質の探索の更なる効率化を目指した.In structure based-drug design, selecting a drug target protein is very important. For the target protein selection, several database systems integrating various related information, such as genomic information of pathogens and phenotypic information, have been proposed. However, biological pathway information, which may facilitate understanding the importance of proteins, has not been integrated. In this research, we integrated the biological pathway information about Trypanosomatidae family, protozoans parasites into a database system iNTRODB, which has been developed for selecting drug target protein of neglected tropical diseases. We also developed an interface to display pathway information with genome and protein information to improve the search process of drug target proteins.
著者
蓮実梢 石田貴士 秋山泰
出版者
一般社団法人情報処理学会
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.2014, no.34, pp.1-7, 2014-06-18

標的となるタンパク質を定めて行う薬剤開発において,薬剤標的タンパク質の選定はとても重要となる.この標的タンパク質探索には,既に病原体のゲノム情報等を利用して探索を行うための統合的なデータベースシステムが提案されてきたが,その生化学経路情報については統合の対象とされていなかった.しかし,この情報を用いることであるタンパク質が病原体の生命維持に対して致命的であるかという議論が可能となるため,生化学経路情報の統合は標的タンパク質の探索のために有用であると考えられる.そこで本研究では,顧みられない熱帯病の新薬の標的タンパク質を探索するための統合データベースシステム iNTRODB に,トリパノソーマ科寄生原虫に関する生化学経路情報を追加し,またそこにゲノム等に関連する情報を表示するインタフェースを開発することで,標的タンパク質の探索の更なる効率化を目指した.In structure based-drug design, selecting a drug target protein is very important. For the target protein selection, several database systems integrating various related information, such as genomic information of pathogens and phenotypic information, have been proposed. However, biological pathway information, which may facilitate understanding the importance of proteins, has not been integrated. In this research, we integrated the biological pathway information about Trypanosomatidae family, protozoans parasites into a database system iNTRODB, which has been developed for selecting drug target protein of neglected tropical diseases. We also developed an interface to display pathway information with genome and protein information to improve the search process of drug target proteins.
著者
蓮実 梢 石田 貴士 秋山 泰
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IBISML, 情報論的学習理論と機械学習 (ISSN:09135685)
巻号頁・発行日
vol.114, no.105, pp.185-191, 2014-06-18

標的となるタンパク質を定めて行う薬剤開発において,薬剤標的タンパク質の選定はとても重要となる.この標的タンパク質探索には,既に病原体のゲノム情報等を利用して探索を行うための統合的なデータベースシステムが提案されてきたが,その生化学経路情報については統合の対象とされていなかった.しかし,この情報を用いることであるタンパク質が病原体の生命維持に対して致命的であるかという議論が可能となるため,生化学経路情報の統合は標的タンパク質の探索のために有用であると考えられる.そこで本研究では,顧みられない熱帯病の新薬の標的タンパク質を探索するための統合データベースシステムiNTRODBに,トリパノソーマ科寄生原虫に関する生化学経路情報を追加し,またそこにゲノム等に関連する情報を表示するインタフェースを開発することで,標的タンパク質の探索の更なる効率化を目指した.
著者
蓮実 梢 石田 貴士 秋山 泰
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.114, no.105, pp.185-191, 2014-06-25

標的となるタンパク質を定めて行う薬剤開発において,薬剤標的タンパク質の選定はとても重要となる.この標的タンパク質探索には,既に病原体のゲノム情報等を利用して探索を行うための統合的なデータベースシステムが提案されてきたが,その生化学経路情報については統合の対象とされていなかった.しかし,この情報を用いることであるタンパク質が病原体の生命維持に対して致命的であるかという議論が可能となるため,生化学経路情報の統合は標的タンパク質の探索のために有用であると考えられる.そこで本研究では,顧みられない熱帯病の新薬の標的タンパク質を探索するための統合データベースシステムiNTRODBに,トリパノソーマ科寄生原虫に関する生化学経路情報を追加し,またそこにゲノム等に関連する情報を表示するインタフェースを開発することで,標的タンパク質の探索の更なる効率化を目指した.
著者
鈴木 脩司 石田 貴士 秋山 泰
出版者
情報処理学会
雑誌
研究報告数理モデル化と問題解決(MPS) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.20, pp.1-6, 2010-12-09
被引用文献数
1

近年,DNA 配列等の配列決定技術の向上により高速に配列データを得ることが可能となった.これにより DNA 配列及びタンパク質配列のデータベースのデータ量が爆発的に増加している.このため大量の配列データに対して巨大な DB への相同性検索を行う機会が多くなってきてる.しかし,大規模なデータを用いた相同性検索では,BLAST など従来のツールでは解析が間に合わないという問題がある.本研究では Suffix Array を用いてクエリのインデックスを,FM-index を用いて DB のインデックスを構築し,これらのインデックスを用いてミスマッチをある程度許して短い領域で高いスコアとなる部分を見つけ,その部分の周辺をアラインメントするアルゴリズムを提案した.その結果,従来用いられてきた BLAST 以上の精度を保ったまま,約 10 倍の高速化を達成した.In recent years, a lot of biological sequence data can be determined easily and the size of DNA/protein sequence databases is increasing explosively because of the improvement of sequencing technologies. However, such a huge sequence data causes a problem that even general homology search analyses by using BLAST become difficult in terms of the computation cost. Therefore, we designed a new homology search algorithm that finds alignment candidates based on the suffix array of queries and the FM-index of a database. As results, the proposed method achieved about 10-fold speed up than BLAST.
著者
齊藤 有紀 石田 貴士 関嶋 政和 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2013-BIO-34, no.15, pp.1-6, 2013-06-20

近年,薬剤開発に必要な時間や費用が増大しており,薬剤開発の期間短縮や費用削減が求められている.そのための手法としてコンピュータ上でのシミュレーションを用いて,ターゲットとなるタンパク質を阻害する薬物の構造を設計する手法が注目を浴びている.一方で,薬物として使用する化合物は,体内で代謝・排泄されなければならないという条件がある.この条件を満たす薬物の選定のために行われるのが薬物クリアランス経路予測である.そこで我々は,コンピュータ上で行われるシミュレーションのひとつである,タンパク質と化合物のドッキング計算による結合自由エネルギー計算を,薬物クリアランス経路の予測に応用し,これまで我々が開発してきたクリアランス経路予測システムの精度改善を行った.
著者
鈴木 脩司 石田 貴士 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2013-BIO-34, no.14, pp.1-7, 2013-06-20

メタゲノム解析では DNA 配列をアミノ酸配列に変換して相同性検索を行うが、次世代シークエンサの登場によって得られるようになった大量の DNA 断片配列の処理に多くの時間がかかるようになっている。このため、我々はあらかじめデータベースを部分文字列に分割して、類似度が高い部分文字列をまとめておき、まずその代表点に対して検索を行うことで効率よく検索する手法を開発した。
著者
小幡 康文 石田 貴士 夏目 徹 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2013-BIO-34, no.13, pp.1-8, 2013-06-20

タンパク質タンデム質量分析は生命科学や創薬などの分野で幅広く利用されている.近年は機器の高速化により,時間当たりで得られるスペクトルの量が増加し,更にタンパク質データベースサイズも増加している.そのためスペクトルの解析に高速な計算機が必要となっている.本研究では,質量分析プログラムであるCoCoozoを対象に質量分析の高速化を図り,アルゴリズムの改良と,それに加えてマルチスレッド化とGPGPU化の実装も行った.その結果,プレカーサ情報が有る場合の解析について,従来に比べて8.9倍の高速化を実現した.更に,プレカーサ情報が無い場合の解析について,12コアCPUを用いた場合で従来に比べて15.9倍,さらにGPUを用いた場合で,従来に比べて18.1倍の高速化を実現した.
著者
杉浦 典和 石田 貴士 関嶋 政和 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.25, pp.1-7, 2012-06-21

代表的な de novo アセンブラの一つである Velvet は,大規模なゲノムのアセンブリにおいて消費メモリ量の多さが課題とされている.本稿ではハッシュテーブルを分割することで,特に消費メモリ量の多い前半の velveth の消費メモリを削減する手法を提案した.またハッシュテーブルを分割する手法として,新たにリード分割法を提案した.リード分割法の提案により,従来より提案されている k-mer 値に応じた分割法に比べ,少数計算機で実行する際の実行時間の削減に成功した.Velvet is one of the most representative de novo assembler. However it has a problem that its memory consumption is too large for large scale assembling. Here, we propose a method to decrease the memory consumption of velveth which is the first half of Velvet and requires generally larger memory than the remaining half part. We propose a novel hash dividing method by dividing reads. By using this method, we have succeeded to decrease the elapsed time compared to the existing method, which divides a hash table corresponding the k-mer value.
著者
大上 雅史 石田 貴士 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.21, pp.1-3, 2012-06-21

タンパク質間ドッキング予測ソフトウェア MEGADOCK では,従来は形状相補性と静電相互作用の 2 つの効果を評価関数としていたが,本研究では新たに Atomic Contact Energy による疎水性相互作用モデルを提案し,MEGADOCK に追加した.MEGADOCK などの FFT を用いて計算されるグリッドベースのドッキング予測では,通常 3 つの効果を計算するために 2 回以上の相関関数計算を要するが,提案手法ではレセプターのみを考慮する新しい簡易型スコア関数によって,3 つの効果を 1 回の FFT 計算で同時に計算することが可能となり,高速性を損なわずに精度を向上させることに成功した.In this study, we proposed a new hydrophobic interaction model which applied Atomic Contact Energy for our protein-protein docking software called MEGADOCK in which we previously used only two score terms, namely, shape complementarity and electrostatic interaction. Using the proposed score function, MEGADOCK can calculate three phisico-chemical effects with only one correlation function. Therefore we succeeded improvement of accuracy without loosing speed.
著者
下田 雄大 石田 貴士 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.20, pp.1-3, 2012-06-21

タンパク質ドッキング計算では,高速フーリエ変換 (Fast Fourier Transform,FFT) を応用した高速計算法が知られているが,FFT を用いる場合,評価関数が畳込み和の形式に限定され,設計の自由度が低くなるという欠点がある.そこで,本研究ではより複雑な評価関数を用いることを想定し,FFT を用いない実空間上でのドッキング計算を考える.FFT を利用しないことで生じる計算コストの増大に対し,高スコアの複合体構造の偏在を利用してヒューリスティックに高スコアの複合体構造のみを階層的に探索することで計算結果を変えずに計算時間を短縮するための手法を提案する.In protein-protein docking, a fast calculation method using fast Fourier transform (FFT) is well known, but the form of the evaluation function is limited to the sum of convolution. In this study, we developed an efficient docking calculation method without using FFT in order to use various evaluation functions. Against the increase of computational cost, we proposed the heuristic method that hierarchically searches only high-score complex structures using the locality of high-score complex structures.
著者
藤原 隆之 松崎 由理 石田 貴士 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.19, pp.1-3, 2012-06-21

タンパク質間ドッキング予測ソフトウェア "MEGADOCK" では,目的関数に形状相補性と静電相互作用の 2 つの項を用いているが,その最適なバランスは対象毎に一定ではなく,それを決定することは困難である.そのため,先行研究として予測精度改善のため目的関数のうち静電相互作用項の重みをタンパク質の表面電荷等の特徴から動的に調整する手法が提案されたが,いくつかの問題を含んでいた.そこで,本研究では従来手法の再検証を行い,サポートベクター回帰を用いた改良を提案する.改良された手法では従来使用されたデータセットにおいて予測性能の向上が確認され,その上で新たなデータセットへの適用も行った。The protein-protein docking software "MEGADOCK" uses the two terms in its target function; shape complementarity and electrostatic. However, the optimal balance between those two terms is defferent for each protein. Thus, dynamic adjustment of the weight of the electrostatic term based on the surface charge of a protein was proposed in a previous work. In this work, we improved the method by using support vector regression and additional characteristics of a protein. By using our new method, we achieved the better prediction performance for the data used in the previous study. We also applied the method to new data set.