著者
沼田 康平 田中 健一 船津 公人
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第43回ケモインフォマティクス討論会
巻号頁・発行日
pp.1A02, 2020 (Released:2020-11-29)
参考文献数
11

材料開発や医薬品開発の現場では、大量の候補から目的の物性・活性を満たす化合物を探索する。ここで、金銭的・時間的コストの改善を目的として、実験回数の低減が求められている。機械学習による予測モデルを活用して実験回数の低減を実現する方法として、Sequential Model-Based Optimization (SMBO) が存在する。モデルとして用いられる既存手法は外挿の予測に適していない一方で、化合物探索においては、既存のデータから離れた物性・性能を達成するために外挿性が求められる。そこで本研究では、外挿に対応可能な非線形回帰手法、Stochastic Threshold Model Trees (STMT) を提案し、SMBOに適用することで効率的な化合物探索を目指した。STMTに対して新たな獲得関数を適用することで、検証に用いたデータセットについて、その探索性能が既存手法よりも優れていることを示した。また、各手法の探索過程について可視化を行い、提案手法が効率的な探索を行えることを確認した。
著者
藤芳 明生
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第42回ケモインフォマティクス討論会 東京
巻号頁・発行日
pp.2A02, 2019 (Released:2019-10-22)
参考文献数
6

正規表現によって文字列検索の利便性が飛躍的に向上したように、化学構造検索の利便性向上のため、既存の化学構造表記法SMILESを拡張した正規表現拡張SMILESを提案するとともに、それを用いた化学構造検索手法を紹介する。正規表現拡張SMILESは、発表者が研究を続けている有限グラフオートマトンに容易に変換可能であり、有限グラフオートマトンを用いた部分グラフ探索アルゴリズムを適応することができる。
著者
福島 真太朗
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第42回ケモインフォマティクス討論会 東京
巻号頁・発行日
pp.2B03, 2019 (Released:2019-10-22)
参考文献数
7

近年,機械学習を用いて物性を予測したり,結晶構造を探索したりする研究が行われている.本研究では,生成モデルを用いた結晶構造生成について考える.この問題に対して,CrystalGANと呼ばれる手法が提案されている.この手法は”A-H-B” (A, B:金属,H:水素)という結晶構造を持つ化合物を探索するために,異なるドメイン間を横断した生成モデルであるDiscoGANを使用する. CrystalGANは,結晶構造生成の簡便な手法である.一方で,POSCARファイルに記録された格子ベクトルと,水素や金属の座標を結合して特徴量を構築するため,結晶の幾何学的構造の反映が十分ではないという問題点がある.本研究ではこの問題点を解決するために,結晶をグラフ構造で表現して幾何学的構造を織り込み生成モデルを学習する方法を提案する.
著者
金子 弘昌 船津 公人
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第38回ケモインフォマティクス討論会 東京
巻号頁・発行日
pp.28-31, 2015 (Released:2015-10-01)
参考文献数
16

本発表では回帰分析におけるモデルの精度およびモデルの適用範囲を議論の対象とする。一般的にはモデルのオーバーフィッティングを避けるようにしてモデルは構築される。しかしモデルがオーバーフィットした場合、もちろんそのモデルの適用範囲は狭くなるが、適用範囲内であれば精度良く予測可能なモデルといえる。今回は水溶解度データを使用してモデルの適用範囲を考慮に入れたモデルの性能の比較を行った。非線形の回帰モデルを構築する手法であるsupport vector regressionのハイパーパラメータを変化させてモデルを構築し、それぞれ予測性能を評価するとともにモデルの適用範囲を設定した。モデルの適用範囲はデータ密度に基づくものである。解析の結果、モデルのオーバーフィッティング自体が問題ではなく、オーバーフィットしたモデルでも適切にモデルの適用範囲を設定することでその範囲内であれば精度良く予測可能であることを示した。
著者
田中 弥 大沼 かおり 三瓶 真菜 佐々木 一謹 山本 博之
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第42回ケモインフォマティクス討論会 東京
巻号頁・発行日
pp.1P04, 2019 (Released:2019-10-22)
参考文献数
4

本プロジェクトでは、メタボローム解析においてしばしば問題となる未知化合物の構造推定に、2種の独立したアプローチで取り組んだ。一方は一般的に用いられるタンデム質量分析 (MS/MS) を用いた推定であり、もう一方は代謝に基づく発表者ら独自の推定である。これにより十種程度の未知化合物の同定に成功してきたが、それには一方の手法がより良い推定を示したものも、両方の手法にて有力候補となったものも含まれていた。置換基の位置のようにMS/MSでは得にくい情報も、前駆体探索により構造推定に取り組むことができた。一方で、前駆体探索が困難な構造の化合物では、MS/MS による推定がより有力であることが考えられる。独立した2手法を用いることでそれぞれが得意な推定対象を補完しあい、また両手法の結果の組み合わせからより精度の高い推定を導くことが可能となった。
著者
小寺 正明
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第41回ケモインフォマティクス討論会 熊本
巻号頁・発行日
pp.2Y05, 2018 (Released:2018-10-26)
参考文献数
10

代謝産物とその代謝経路に関する我々の知識は、天然物のほんの一部に過ぎない。既知酵素のリストであるIUBMB Enzyme List は参照経路に基づく代謝経路再構築の基礎である。ところがこのストラテジーは生物種固有の天然物生合成経路や、環境汚染物質の生分解経路には本質的に向いていない。近年私は代謝経路のde novo再構築として、新規化合物を生成するアプローチとは別に、機械学習を用いて既知化合物間を酵素反応でつなぐアプローチを開発した。また、その反応を触媒する酵素の予測として、化学構造からのECサブサブクラス予測手法と、化学構造からの酵素タンパク質予測手法を開発した。これらの研究は有機合成戦略の問題と類似した問題であり共通部分も多いが、利用可能な情報や、取ることができる戦略などの違いがあるのでそれを理解することが大変重要である。
著者
宮尾 知幸 荒川 正幹 船津 公人
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第30回情報化学討論会 京都
巻号頁・発行日
pp.JP20, 2007 (Released:2007-11-08)
参考文献数
4

化学データは一般に多次元であるため、データを把握するためには次元削減による可視化が必要となる。代表的な手法としてPCAや自己組織化マップが知られているが、近年Bishopにより確率モデルを用いたgenerative topographic mapping (GTM)が提案された。そこで本研究では、写像の滑らかさの指標を導入し、SOMとGTMにおける写像の特徴を比較した。
著者
松岡 聖二 吉田 稔
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第40回ケモインフォマティクス討論会 山口
巻号頁・発行日
pp.P4, 2017 (Released:2017-10-19)
参考文献数
5

従来の多くの類似性指標は化学構造の全体的な類似度を表しているため、特徴的な共通母核を持ち同様の生理活性を示す化合物同士が、残基のサイズによっては低い類似度を示すという問題点がある。そこで、局所的なグラフ同型性を基にした類似性指標を新たに開発した。当指標をChemical space network(CSN)として知られるネットワーク理論的手法を用いた構造活性相関分析へ応用した結果について報告する。
著者
山田 一作 木下 聖子
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
ケモインフォマティクス討論会予稿集 第40回ケモインフォマティクス討論会 山口
巻号頁・発行日
pp.O2, 2017 (Released:2017-10-19)
参考文献数
13

セマンティックウェブ技術を活用し様々なライフサイエンスデータとリンクすることで糖鎖機能の解明につなげることができる。糖鎖科学のポータルサイトとしてGlyCosmos Portal を開発し、ライフサイエンスデータの統合を目指す。我々はこれまで国内外の研究者と協力し糖鎖情報のオントロジーであるGlycoRDF、糖鎖構造表記 法であるWURCS、国際糖鎖構造リポジトリであるGlyTouCan を開発してきた。本ポータルは、これらの成果を活用したリポジトリとデータベースで構成される。リポジトリはGlyTouCan と複合糖質のリポジトリを開発している。また、データベースとしては、糖鎖関連の生合成経路や糖鎖の分子構造のデータを収録するGlyCosmosDB を開発している。
著者
小川 拓水 岡澤 敦司 太田 大策
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
Journal of Computer Aided Chemistry (ISSN:13458647)
巻号頁・発行日
vol.18, pp.51-57, 2017 (Released:2017-08-01)
参考文献数
15

リピドミクスは試料中に含まれる脂質の総体を研究対象とする学問分野である。主要な膜脂質であるグリセロリン脂質は、1 分子のグリセロール骨格に 1 分子の極性頭部と 2 分子の脂肪酸がエステル結合しており、極性頭部の種類によってクラス分類がなされている。その構造多様性をもたらす要因は、極性頭部の種類、2 分子の脂肪酸の種類 (炭素鎖長と不飽和結合数) であるが、それらの組み合わせを考慮した場合、試料中に含まれることが予想される脂質分子種の数は膨大なものとなる。しかし、公共のデータベースに収集されている脂質の実測データは,膨大な数の脂質分子種に対して未だ限定的であり、このことが個々の脂質分子種の同定作業を困難なものにしていた。一方、MS 測定においてそれぞれの脂質クラスに特徴的なイオン開裂反応が起こることが知られていた。そのためリピドミクスでは、計算機上 (インシリコ) で脂質分子種の MS/MS 測定を行って仮想的な MS/MS スペクトルを生成し、それらを参照ライブラリ (インシリコ MS/MS ライブラリ) として利用した脂質同定ツールが開発されてきた。本稿では、これらの脂質同定ツールのリピドミクスへの貢献について概説する。
著者
松田 史生
出版者
公益社団法人 日本化学会・情報化学部会
雑誌
Journal of Computer Aided Chemistry (ISSN:13458647)
巻号頁・発行日
vol.18, pp.24-30, 2017 (Released:2017-08-01)
参考文献数
17

液体クロマトグラフィー/質量分析計 (LC/MS) を用いたメタボロミクスでは、生体試料中代謝物のカタログ化を目指し、プロダクトイオンスペクトル(MS/MSスペクトル)に基づく代謝物アノテーションが試みられている。その基盤としてMassBankが収集した標準化合物データが重要な役割を果たしてきた。本稿では、代謝物アノテーション法をさらに発展させる試みの一つして、プロダクトイオンスペクトルの構造情報をMS/MS文字列とその正規表現として記述する方法を紹介する。代謝物アノテーションの情報処理要素技術である、プロダクトイオンスペクトルの品質評価、類似性検索、検索結果の品質評価、化合物オントロジーによる部分アノテーションに再検討を加え、解決すべき課題の抽出を試みる。