著者
松谷 太郎 宇恵野 雄貴 福永 津嵩 浜田 道昭
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2017-BIO-50, no.33, pp.1-6, 2017-06-16

がんゲノムの変異パターンと,その背景にある変異源の分布は変異シグネチャー (Mutation Signature : MS) と呼ばれ,本研究では機械学習の手法を用いてこれを明らかにする.MS の推定は発がんメカニズムの解明の後押しになるなど重要な課題であり,先行研究では非負値行列因子分解や混合メンバーシップモデルを使った学習が行われていたが,MS の数が予測困難である等の問題点がある.本研究では MS ごとの変異の生成過程に対して潜在的ディリクレ再配置 (LDA) と呼ばれるトピックモデルを採用し,サンプルごとの体細胞突然変異からその背後にある生成モデルを推定する.学習に変分ベイズ法を用いることで,変分下限から MS 数を予測することが可能となり,シミュレーションベースではその推定に成功した.また,COSMIC データベースを用いた実データ解析にも着手している.
著者
Ryo Ishibashi
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2023-BIO-73, no.34, pp.1-6, 2023-03-02

This paper proposes the application of multidimensional scaling (MDS) to Hi-C data on genomic interactions as a method of visualizing DNA loops. Currently, the mechanisms underlying the regulation of gene expression are poorly understood. Previous studies have focused on reproducing the entire three-dimensional structure of chromatin; however, identifying DNA loops using such data is time-consuming and difficult. Hi-C data were converted to distances by taking the inverse to reproduce loops via MDS, and missing values were set to zero. MDS was applied to the log-transformed genomic coordinate distances using the converted data, and this process successfully reproduced the DNA loops in the given structure. Consequently, the reconstructed DNA loops contained significantly more DNA bound by transcription factors involved in DNA loop formation than that obtained using previously applied methods. In conclusion, the proposed method represents an improvement over previous methods.
著者
仙名 瑛斗 田口 善弘
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2022-BIO-70, no.54, pp.1-5, 2022-06-20

レトロウイルスの異常発現が神経疾患に関係していることが示唆されている.本研究では m6A のメチル化によって内在性レトロウイルスに異常をきたし,結果として神経疾患を引き起こす可能性,およびその遺伝子の同定をテンソル分解を用いて行う.
著者
柳澤 渓甫 小峰 駿汰 久保田 陸人 大上 雅史 秋山 泰
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2017-BIO-50, no.38, pp.1-8, 2017-06-16

バーチャルスクリーニングにおける大規模なタンパク質 - 化合物ドッキング計算の高速化のために,化合物の部分構造であるフラグメントのドッキング計算結果を保存し,他の化合物の評価時に計算結果を再利用する方法が提案されている.しかし,従来提案されてきた手法はディスクアクセスを大量に発生させ,高速化率が十分ではなかった.さらなる高速化のためには,メモリ上に計算結果を保持してディスクアクセスを減らすことが考えらえるが,メモリ容量には上限があるため効率的な計算結果の保持を実現することが重要になる.本研究では,最適な計算結果の保持順番の導出を重み付きオフラインキャッシュ問題として定式化し,これを最小費用流問題に帰着させ,さらにこの帰着させたグラフの特徴を利用した高速な厳密解アルゴリズムを提案した.従来提案されていた非巡回有向グラフに対する最小費用流問題の厳密解アルゴリズムに比べて約 7 倍の高速化を達成した.
著者
坂本 亘 関嶋 政和
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2017-BIO-50, no.43, pp.1-6, 2017-06-16

創薬において創薬標的タンパク質や薬候補化合物の立体構造の可視化は重要な役割を果たしている.しかし,現在多くの分子構造描画システムでは本来 3 次元の立体構造を 2 次元のディスプレイで描画している.本来3次元であるタンパク質や薬候補化合物の立体構造は,その相互作用や化合物の最適化を考える上で,3 次元で可視化した方がより有用な知見が得られると考えられる.そこで,本研究ではタンパク質や化合物の立体構造を Mixed Reality (複合現実) を実現するデバイスである HoloLens を用いて複合現実で描画するシステムを開発した.HoloLensの性能に起因する表示上のパフォーマンスに課題はあるものの,今後課題を解決していくことで,創薬において本システムは有用なものになると考えられる.
著者
西 和弥 佐久間 拓人 梅津 佑太 梶岡 慎輔 竹内 一郎
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2018-BIO-54, no.4, pp.1-7, 2018-06-06

センサーデバイスの発展により,GPS による移動データなどの系列データが容易に取得できるようになった.そういったデータから重要な系列パターンを抽出する手法の一つとして,予測系列マイニングと呼ばれるデータマイニング手法がある.膨大な候補の中から抽出された系列パターンの信頼性をなんらかの指標を用いて定量的に評価することは意思決定を行う際にとても重要である.本稿では L1 正則化つき線形モデルを用いた予測系列マイニングと,選択バイアスを考慮した統計的仮説検定を組み合わせた手法を提案する.
著者
高畠 和輝 伊澤 和輝 秋川 元宏 大上 雅史 秋山 泰
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2020-BIO-61, no.10, pp.1-6, 2020-03-05

土壌や海洋,生体内などの環境に生息する微生物を網羅的に解析するメタゲノム解析の手法の一つとして,大量のシークエンスデータに高精度な配列相同性検索を行うものがある.従来法である BLAST などの配列相同性検索ツールでは,最新の次世代 DNA シーケンサーのスループットに対して計算速度が不十分であり,前述のような解析のボトルネックとなっている.本研究では,データベース配列とクエリ配列の間で類似度の高い部分配列を二段階で探索し,各段階において文字数の異なる圧縮アミノ酸集合を適用することで,高精度かつ高速な相同性検索を行う新たなアルゴリズムの提案・実装を行った.また評価実験により,従来手法と比較した際の提案手法の有効性を確認した.
著者
恵利川 大樹 安尾 信明 関嶋 政和
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2020-BIO-61, no.11, pp.1-6, 2020-03-05

創薬のプロセスの一つである化合物最適化では,特定の化合物を出発点としてより薬らしい化合物の探索を行っている.機械学習を利用した化合物生成モデルの一つである ChemTS は優れた物性を持つ化合物を生成することに成功したが,特定の化合物を出発点とした化合物生成には対応していなかった.そこで,本研究ではモンテカルロ木探索を用い,特定の化合物の誘導体を生成することが可能な手法を開発した.また,本手法について化合物の薬らしさの指標である QED を最適化する実験を行い,平均 QED が 0.63 の化合物群に対して 0.93 を超える化合物を生成することに成功した.
著者
青山 健人 山本 悠生 大上 雅史 秋山 泰
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2017-BIO-49, no.3, pp.1-8, 2017-03-16

近年,軽量かつ性能に優れた仮想化技術としてコンテナ型仮想化が大規模な並列計算環境に導入されはじめている.様々なライブラリやソフトウェア群を併用する機会の多い生命情報解析分野において,ライブラリや実行ファイルを既存の環境から隔離し,即時実行可能な形式でソフトウェア共有を可能とするコンテナ型仮想化技術は,大きな影響を与えると予測される.本研究では,我々の研究室で開発したタンパク質間相互作用予測システム (MEGADOCK) について,クラウド環境上の仮想マシンにコンテナ型仮想化の実装の 1 つである Docker を用いた分散計算環境を構築し,並列計算性能を評価する.
著者
草田 義昭 瀬尾 茂人 竹中 要一 野口 眞三郎 松田 秀雄
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2016-BIO-45, no.7, pp.1-6, 2016-03-11

遺伝子発現プロファイルの臨床応用は,近年精力的に研究が行われている.しかしマイクロアレイを用いたデータ解析においては,”バッチ効果” を取り除くことが不可欠であり,さらに逐次サンプルが追加される臨床現場では,1 サンプル毎に正規化が完結することが求められている.我々は,ノンパラメトリックZ標準化 (NPZ) 法を提案し,既存の手法と比較検討を行った.まず,公共のデータベースからエストロゲン受容体 (ER) とヒト上皮増殖因子受容体 2 (HER2) の免疫組織化学 (IHC) 染色の結果を有する 2,813 症例 (24 データセット) のマイクロアレイの発現データを抽出した.続いて,CEL ファイルからバックグランド補正及び,log2 変換のみを行ったもの (Raw), 既存の 4 つの正規化法 [Microarray Suite 5.0(MAS5),frozen robust multiarray analysis (fRMA),radius minimax (RMX)]. に対して,下記の 6 つの数値変換 [無変換,シングルアレイ数値変換(RANK,,Z,NPZ,,YuGene),マルチアレイ数値変換 (ComBat)] を加えて,各々の ER と HER2 の IHC 染色の結果と mRNA の発現の一致率を比較した.シングルアレイ数値変換を行うことで IHC 染色と mRNA の発現の一致率は改善した.一方で,マルチアレイ数値変換は,主成分分析ではバッチ効果を他の手法に比して除去しているように図示されたが,実際には IHC 染色との一致率が低下していた.さらに,乳癌の予後と数値変換の検討の結果,MAS5 後に NPZ を加えることで,無変換,マルチアレイ数値変換と比べて 2 群の差が明瞭となった.今回,我々は乳癌のデータセットを用いて数値変換の与える影響について検討を行った.シングルアレイ数値変換を追加することで,臨床における発現データのバッチ効果の除去に有効である可能性が示唆された.
著者
望月 正弘
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2015-BIO-43, no.4, pp.1-2, 2015-09-05

コンピュータによる予測で医薬品候補化合物を選別する技術バーチャル・スクリーニングは,創薬の効率化に重要である.発表者は,並列生物情報処理イニシアティブが主催するオープン創薬コンテストへの参加を通じて,提案手法の有効性を検証した.本手法は,(1) スクリーニング対象化合物とターゲットを阻害する既知化合物の物理化学的性質の類似性を定量的に評価し “薬らしさ” に欠ける化合物を排除する段階と (2) 化合物の構造情報に加えてアッセイの実験条件を特徴量として用いた機械学習による薬剤活性予測の段階の 2 段階から構成される.最終的に医薬品候補として予測した化合物のうち,182 化合物が実際にアッセイの対象とされ,9 個のヒット化合物を得た.
著者
小林 健太 加藤 有己 谷口 丈晃 丸山 徹 伊藤 通浩 五斗 進 竹山 春子 藤渕 航
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2015-BIO-42, no.58, pp.1-2, 2015-06-16

多数の難培養微生物で構成される海洋環境の理解を促進するために,メタゲノム解析に注目が集まっている.しかしながら,メタゲノムのリード群を完全にアセンブルすることは困難を極めることが知られている.近年,次世代シークエンシング技術の発展とともに,1 細胞ゲノムデータが利用できるようになってきた.本稿では,近年の利用可能な技術の動向を踏まえ,メタゲノムおよび 1 細胞配列データが与えれたとき,アセンブリ,遺伝子の構造および機能推定を行うパイプラインを発表する.具体的に,リードの前処理,アセンブリとアノテーションに特化したパイプラインを提供し,遺伝子アノテーションのマップの可視化を可能とするものである.