著者
松谷 太郎 宇恵野 雄貴 福永 津嵩 浜田 道昭
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2017-BIO-50, no.33, pp.1-6, 2017-06-16

がんゲノムの変異パターンと,その背景にある変異源の分布は変異シグネチャー (Mutation Signature : MS) と呼ばれ,本研究では機械学習の手法を用いてこれを明らかにする.MS の推定は発がんメカニズムの解明の後押しになるなど重要な課題であり,先行研究では非負値行列因子分解や混合メンバーシップモデルを使った学習が行われていたが,MS の数が予測困難である等の問題点がある.本研究では MS ごとの変異の生成過程に対して潜在的ディリクレ再配置 (LDA) と呼ばれるトピックモデルを採用し,サンプルごとの体細胞突然変異からその背後にある生成モデルを推定する.学習に変分ベイズ法を用いることで,変分下限から MS 数を予測することが可能となり,シミュレーションベースではその推定に成功した.また,COSMIC データベースを用いた実データ解析にも着手している.
著者
鈴木 脩司 石田 貴士 秋山 泰
出版者
情報処理学会
雑誌
研究報告バイオ情報学(BIO) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.20, pp.1-6, 2010-12-09

近年,DNA 配列等の配列決定技術の向上により高速に配列データを得ることが可能となった.これにより DNA 配列及びタンパク質配列のデータベースのデータ量が爆発的に増加している.このため大量の配列データに対して巨大な DB への相同性検索を行う機会が多くなってきてる.しかし,大規模なデータを用いた相同性検索では,BLAST など従来のツールでは解析が間に合わないという問題がある.本研究では Suffix Array を用いてクエリのインデックスを,FM-index を用いて DB のインデックスを構築し,これらのインデックスを用いてミスマッチをある程度許して短い領域で高いスコアとなる部分を見つけ,その部分の周辺をアラインメントするアルゴリズムを提案した.その結果,従来用いられてきた BLAST 以上の精度を保ったまま,約 10 倍の高速化を達成した.In recent years, a lot of biological sequence data can be determined easily and the size of DNA/protein sequence databases is increasing explosively because of the improvement of sequencing technologies. However, such a huge sequence data causes a problem that even general homology search analyses by using BLAST become difficult in terms of the computation cost. Therefore, we designed a new homology search algorithm that finds alignment candidates based on the suffix array of queries and the FM-index of a database. As results, the proposed method achieved about 10-fold speed up than BLAST.
著者
Ryo Ishibashi
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2023-BIO-73, no.34, pp.1-6, 2023-03-02

This paper proposes the application of multidimensional scaling (MDS) to Hi-C data on genomic interactions as a method of visualizing DNA loops. Currently, the mechanisms underlying the regulation of gene expression are poorly understood. Previous studies have focused on reproducing the entire three-dimensional structure of chromatin; however, identifying DNA loops using such data is time-consuming and difficult. Hi-C data were converted to distances by taking the inverse to reproduce loops via MDS, and missing values were set to zero. MDS was applied to the log-transformed genomic coordinate distances using the converted data, and this process successfully reproduced the DNA loops in the given structure. Consequently, the reconstructed DNA loops contained significantly more DNA bound by transcription factors involved in DNA loop formation than that obtained using previously applied methods. In conclusion, the proposed method represents an improvement over previous methods.
著者
西本恵太 イヴァンタネヴ 下原勝憲 鈴木麗璽 有田隆也
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.8, pp.1-6, 2012-11-29

マイノリティゲームは複数個体による資源競争のモデルであり,ルールは単純でありながら創発的特徴を持つことで知られる.我々は,ゲーム選択に至る動的な調整過程に焦点をあてるため,選択肢を実数値化した上で意思決定前のコミュニケーションを導入した.調整過程における他個体の振る舞いに対する鋭敏性を社会的知能の典型的な表れと考え,その進化ダイナミクスを分析することを目的として,エージェントに搭載したニューラルネットワークを進化させる実験を行った.その結果,エージェント間に役割分化が発生することが示された.役割分化は, 1 つの遺伝子プールの鋭敏性が他のプールよりも高く進化した際,遺伝子プール間にも発生する.詳細な検討により,一方のプールが鋭敏性を減少させ,他方のプールがそれに合わせる形で役割が動的に切り替わるというメカニズムを明らかにした.
著者
仙名 瑛斗 田口 善弘
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2022-BIO-70, no.54, pp.1-5, 2022-06-20

レトロウイルスの異常発現が神経疾患に関係していることが示唆されている.本研究では m6A のメチル化によって内在性レトロウイルスに異常をきたし,結果として神経疾患を引き起こす可能性,およびその遺伝子の同定をテンソル分解を用いて行う.
著者
松島 由紀子 舩曵 信生 中西 透
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2009-BIO-19, no.13, pp.1-6, 2009-12-10

本論文では,忙しいライフスタイルの人が,効率よく食事を作ることを目的として,多種料理の調理順最適化アルゴリズムを提案する.まず,材料の加工,加熱,鍋の洗浄からなるキッチンモデルを定義する.その上で,各料理の調理順探索問題を組合せ最適化問題として定式化し,シミュレーティッド・アニーリングを用いたアルゴリズムを提案する.Java 言語を用いて本アルゴリズムを実装し,例題として 6 種類の料理を与えて評価を行った結果,実際の調理結果とは約 15 分の誤差が生じたが,多種料理の調理順最適化に有効であることが明らかとなった.
著者
グエンカムリー 瀬尾 茂人 竹中 要一 松田 秀雄
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2010-BIO-20, no.7, pp.1-8, 2010-02-25

医薬品開発の大きな課題の一つとして,新たな薬の候補となる化合物を効果的に発見するため,化合物集合の中から特定のタンパク質に作用する可能性のある候補化合物を計算機によって探索する過程がある.候補化合物の探索には化合物の構造類似性が用いられていることが多いがデータベースに登録されている化合物量が日々増加しており,類似化合物検索の高速化が必要とされている.本研究では,化合物の部分構造情報を数値化した構造キーと,その類似尺度の一つとして Tanimoto 係数を用いた高速な類似化合物検索方法を提案する.提案手法では,化合物集合をクラスタリングするより類似化合物検索を高速化する.また,提案手法を従来手法と比較し,提案手法を評価する.
著者
柳澤 渓甫 小峰 駿汰 久保田 陸人 大上 雅史 秋山 泰
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2017-BIO-50, no.38, pp.1-8, 2017-06-16

バーチャルスクリーニングにおける大規模なタンパク質 - 化合物ドッキング計算の高速化のために,化合物の部分構造であるフラグメントのドッキング計算結果を保存し,他の化合物の評価時に計算結果を再利用する方法が提案されている.しかし,従来提案されてきた手法はディスクアクセスを大量に発生させ,高速化率が十分ではなかった.さらなる高速化のためには,メモリ上に計算結果を保持してディスクアクセスを減らすことが考えらえるが,メモリ容量には上限があるため効率的な計算結果の保持を実現することが重要になる.本研究では,最適な計算結果の保持順番の導出を重み付きオフラインキャッシュ問題として定式化し,これを最小費用流問題に帰着させ,さらにこの帰着させたグラフの特徴を利用した高速な厳密解アルゴリズムを提案した.従来提案されていた非巡回有向グラフに対する最小費用流問題の厳密解アルゴリズムに比べて約 7 倍の高速化を達成した.
著者
坂本 亘 関嶋 政和
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2017-BIO-50, no.43, pp.1-6, 2017-06-16

創薬において創薬標的タンパク質や薬候補化合物の立体構造の可視化は重要な役割を果たしている.しかし,現在多くの分子構造描画システムでは本来 3 次元の立体構造を 2 次元のディスプレイで描画している.本来3次元であるタンパク質や薬候補化合物の立体構造は,その相互作用や化合物の最適化を考える上で,3 次元で可視化した方がより有用な知見が得られると考えられる.そこで,本研究ではタンパク質や化合物の立体構造を Mixed Reality (複合現実) を実現するデバイスである HoloLens を用いて複合現実で描画するシステムを開発した.HoloLensの性能に起因する表示上のパフォーマンスに課題はあるものの,今後課題を解決していくことで,創薬において本システムは有用なものになると考えられる.
著者
吉川 舜亮 石田 貴士 関嶋 政和 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2013-BIO-34, no.1, pp.1-7, 2013-06-20

近年,次世代シーケンサの開発により大量のゲノム情報を高速かつ低価格で読み取ることが可能となった一方で,一度に読み取ることができるリードの長さが第一世代のシーケンサが数百塩基であるのに比べて第二世代以降のシーケンサでは数十から百数十塩基と短くなっており,それに伴って様々なショートリード向けのアセンブラが考案されている.本研究では,まず高速,省メモリのアセンブラとして近年提案された Sparse Assembler の性能評価を行い,主に最大メモリ使用量,実行時間の面で優れる一方で,出力されるコンティグの質は他のアセンブラに劣ることを確認した.そこで本研究では多くの研究で使用実績のある Velvet にこのアルゴリズムを適用することで,Velvet のアルゴリズムを基本としながらも従来のものより短時間かつ少ないメモリ使用量のアセンブラを実装することを目指した.
著者
鈴木 脩司 石田 貴士 秋山 泰
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.24, pp.1-7, 2012-06-21

我々は以前に suffix array を用いた高速な相同性検索システムを提案したが,近年の次世代シークエンサーの進歩が目覚ましく,得られる配列データは増加しており,さらなる高速化が必要とされている.このため,本研究では従来システムの改良を試み,長さ L hash のすべての文字列の suffix array の検索結果を予め計算しておき,これを保存しておく.そして,検索の際は L hash 文字目までの検索には保存しておいたものを読み出すことで高速化した.また,このシステムを用いてエピゲノム解析へも対応するために,バイサルファイト処理を行った DNA 断片配列のマッピングができるように改良を行った.We developed the system for fast homology search using suffix array. However, next generation sequencers are improving gradually and become to produce larger data than previous sequencers. Thus, we have developed a new faster system. To accelerate search using suffix array, we store the results of searching patterns whose length is less than Lhash and use them as caches. In addition, we enhanced our system to map bisulfite reads for epigenomics.
著者
坂本 悠 山本 泰生 岩沼 宏治
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.23, pp.1-6, 2012-06-21

近年,遺伝子制御系,シグナル伝達系や代謝系などの生体機構をひとつのシステムとして再構築する研究が進められている.実験機器のハイスループット化に伴い,生体システムに関与する観測データは急速に増加しており,システムと観測データ間の整合性を組織的に検証する技術が必要となってきている.本論文では,遺伝子制御系のようなネットワーク形式で表現される生体システムを多値論理の枠組みでモデル検査する手法を提案する.また酵母のグルコース抑制機構に関する生体ネットワークに対して本手法を適用した結果を報告する.Recently, a systematic approach has been evolved in biology to reconstruct biological mechanisms involved in genome, proteome and metabolome into one whole system. Along with high-throughput experimental tools like microarrays, it is required to analyze the consistency between a large amount of data and those reconstructed systems. In this paper, we propose a qualitative way with multiple-valued logic that enables to systematically evaluate those systems that are represented as networks, like gene regulatory networks. This paper also reports preliminary experimental results obtained by applying our technique to a biological network on the glucose repression system of S. cerevisiae.
著者
米澤 弘毅 五十嵐 学 伊藤 公人
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.22, pp.1-5, 2012-06-21

近年,インフルエンザをはじめ様々な病原体の遺伝子情報が大量に蓄積されつつある.データセットの増大に伴い,配列解析にかかる計算コストが急増している.また,疫学調査活動の差異により,データセットは調査地域や年代に関して大きなサンプリングバイアスを含む.本研究では,進化系統樹を利用してサンプリング密度の高い配列を適宜取り除くリサンプリングアルゴリズムを提案し,その性能を比較実験により評価する.Recently a large number of nucleotide sequences of various pathogens are available in public databases. The growth of the datasets has resulted in an enormous increase in computational costs. Moreover, due to differences in surveillance activities, the number of sequences found in databases varies from one country to another and from year to year. Therefore it is important to study resampling methods to reduce the sampling bias. In this paper we propose a novel algorithm-called the closest-neighbor trimming method-that resamples a given number of sequences from a large nucleotide sequence dataset. We compare the performance of the proposed algorithm with other algorithms by using the nucleotide sequences of human H3N2 influenza viruses.
著者
浅井 義之 北野 宏明
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.16, pp.1-3, 2012-06-21

システムバイオロジー,統合的生命科学という新しい研究分野の発展にともない,多階層的な生理機能の数理モデルならびにそのシミュレーションが果たす役割の重要性が増してきていろ.本稿では,そのようなモデル開発ならびにシミュレーションをサポートするために提案されたモデル記述言語 PHML,ならびにアプリケーションである PhysioDesigner ついて概説する.PhysioDesigner は,ユーザーがグラフィカルなインターフェイスを用いて階層的生理機能の数理モデルを構築できるモデリングプラットフォームである.モデルは PHML 形式で保存される.これらのモデルのシミュレーションは Flint と呼ばれるアプリケーションを用いて実行できる.また, PHML と互換性のある ISML 形式のモデルデータベースが physiomejp で公開されている.これらのツール群により統合的生命科学におけるモデリングならびにシミュレーションをサポートする.As new interdisciplinary scientific research fields such as integrated life science is advancing, the importance of mathematical modelings and simulations of multilevel physiological systems are increasing. This article introduces a software application PhysioDesigner and model description language PHML which have been developed for supporting such modeling and simulations. PhysioDesigner provides graphical user interface to build models of physiological functions. Those models created on PhysioDesigner were written in PHML format, which is a specification of XML. Simulations on the models can be done with Flint application which has been developed concurrently with PhysioDesigner. Flint can perform a parallel computing for big simulations. In Physiome.jp, there is a model database of ISML which is XML based modeling language perfectly compatible with PHML.
著者
岡本 陽 田口 善弘
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2011, no.6, pp.1-6, 2011-09-06

プロテオーム解析による表現形の理解のために,膨大なデータを生物学的な解釈に導く為の解析法が重要である.我々は主成分分析 (PCA) を用いて,セレウス菌の増殖に伴うプロファイル変化の解釈を試みた.PCA の結果,合計 10 個のタンパク質が意味のある形で結合しており,生物学的に意味のある形で抽出された.以上の結果から,主成分分析がプロテオーム解析の解釈に有効であることが示唆された.Data-mining technique is important for understanding biological phenotype with a large-scale dataset derived from comprehensive analysis such as shotgun proteomics. We attempted to illustrate differences of proteomic profiles among growth phase and cellular fractionation in Bacillus cereus by principal component analysis (PCA). Total 10 proteins that of significance for biological phenotypes were picked by PCA analysis. These results suggested that the PCA is useful tool for understanding proteomic analysis.
著者
西 和弥 佐久間 拓人 梅津 佑太 梶岡 慎輔 竹内 一郎
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2018-BIO-54, no.4, pp.1-7, 2018-06-06

センサーデバイスの発展により,GPS による移動データなどの系列データが容易に取得できるようになった.そういったデータから重要な系列パターンを抽出する手法の一つとして,予測系列マイニングと呼ばれるデータマイニング手法がある.膨大な候補の中から抽出された系列パターンの信頼性をなんらかの指標を用いて定量的に評価することは意思決定を行う際にとても重要である.本稿では L1 正則化つき線形モデルを用いた予測系列マイニングと,選択バイアスを考慮した統計的仮説検定を組み合わせた手法を提案する.
著者
蓮実梢 石田貴士 秋山泰
出版者
一般社団法人情報処理学会
雑誌
研究報告バイオ情報学(BIO) (ISSN:09196072)
巻号頁・発行日
vol.2014, no.34, pp.1-7, 2014-06-18

標的となるタンパク質を定めて行う薬剤開発において,薬剤標的タンパク質の選定はとても重要となる.この標的タンパク質探索には,既に病原体のゲノム情報等を利用して探索を行うための統合的なデータベースシステムが提案されてきたが,その生化学経路情報については統合の対象とされていなかった.しかし,この情報を用いることであるタンパク質が病原体の生命維持に対して致命的であるかという議論が可能となるため,生化学経路情報の統合は標的タンパク質の探索のために有用であると考えられる.そこで本研究では,顧みられない熱帯病の新薬の標的タンパク質を探索するための統合データベースシステム iNTRODB に,トリパノソーマ科寄生原虫に関する生化学経路情報を追加し,またそこにゲノム等に関連する情報を表示するインタフェースを開発することで,標的タンパク質の探索の更なる効率化を目指した.In structure based-drug design, selecting a drug target protein is very important. For the target protein selection, several database systems integrating various related information, such as genomic information of pathogens and phenotypic information, have been proposed. However, biological pathway information, which may facilitate understanding the importance of proteins, has not been integrated. In this research, we integrated the biological pathway information about Trypanosomatidae family, protozoans parasites into a database system iNTRODB, which has been developed for selecting drug target protein of neglected tropical diseases. We also developed an interface to display pathway information with genome and protein information to improve the search process of drug target proteins.
著者
高畠 和輝 伊澤 和輝 秋川 元宏 大上 雅史 秋山 泰
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2020-BIO-61, no.10, pp.1-6, 2020-03-05

土壌や海洋,生体内などの環境に生息する微生物を網羅的に解析するメタゲノム解析の手法の一つとして,大量のシークエンスデータに高精度な配列相同性検索を行うものがある.従来法である BLAST などの配列相同性検索ツールでは,最新の次世代 DNA シーケンサーのスループットに対して計算速度が不十分であり,前述のような解析のボトルネックとなっている.本研究では,データベース配列とクエリ配列の間で類似度の高い部分配列を二段階で探索し,各段階において文字数の異なる圧縮アミノ酸集合を適用することで,高精度かつ高速な相同性検索を行う新たなアルゴリズムの提案・実装を行った.また評価実験により,従来手法と比較した際の提案手法の有効性を確認した.
著者
恵利川 大樹 安尾 信明 関嶋 政和
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2020-BIO-61, no.11, pp.1-6, 2020-03-05

創薬のプロセスの一つである化合物最適化では,特定の化合物を出発点としてより薬らしい化合物の探索を行っている.機械学習を利用した化合物生成モデルの一つである ChemTS は優れた物性を持つ化合物を生成することに成功したが,特定の化合物を出発点とした化合物生成には対応していなかった.そこで,本研究ではモンテカルロ木探索を用い,特定の化合物の誘導体を生成することが可能な手法を開発した.また,本手法について化合物の薬らしさの指標である QED を最適化する実験を行い,平均 QED が 0.63 の化合物群に対して 0.93 を超える化合物を生成することに成功した.
著者
青山 健人 山本 悠生 大上 雅史 秋山 泰
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2017-BIO-49, no.3, pp.1-8, 2017-03-16

近年,軽量かつ性能に優れた仮想化技術としてコンテナ型仮想化が大規模な並列計算環境に導入されはじめている.様々なライブラリやソフトウェア群を併用する機会の多い生命情報解析分野において,ライブラリや実行ファイルを既存の環境から隔離し,即時実行可能な形式でソフトウェア共有を可能とするコンテナ型仮想化技術は,大きな影響を与えると予測される.本研究では,我々の研究室で開発したタンパク質間相互作用予測システム (MEGADOCK) について,クラウド環境上の仮想マシンにコンテナ型仮想化の実装の 1 つである Docker を用いた分散計算環境を構築し,並列計算性能を評価する.