- 著者
-
江谷 典子
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 研究報告データベースシステム(DBS)
- 巻号頁・発行日
- vol.2014, no.27, pp.1-6, 2014-11-11
近年の新薬開発では,既存薬の作用から新たに薬効を見つけ出し,別の疾患に対する治療薬として再開発する創薬研究が注目を浴びている.そこで,大規模なデータの集合体に対しての手法の適用によるモデルを作成することで,何らかの新事実・関係を発見するという立場から,ビッグデータを応用した創薬 (Drug Discovery) データマイニングの研究に取り組んでいる.本研究では、化合物とタンパク質の相互作用データベース STITCH4.0 に収録されているデータと副作用データベース SIDER 2 に収録されているデータから薬と副作用の関係を網羅的に予測できるモデルを構築し提案する.PLS 回帰式モデルを用いた判別分式を導入することで,副作用発症率分類の特徴抽出を可能にし,2 値化することができる.この 2 値化により,化合物とタンパク質の組み合わせにおける副作用発症率を 「41%~100%」「0.1%~40%」 の 2 段階に分けることを示す.さらに,サポートベクターマシン (SVM) を用いて,副作用の発症率をこの 2 段階で予測することができることを示す.In the recent new drug development, the research on drug discovery, that its indication is newly found out from the approved drugs and a new drug is redeveloped with the new indication as a new therapeutic drug for a different disease, has attracted attention. I have researched and developed data mining for drug discovery as a big data application from the standpoint that a model is developed by the methods for collection of large-scale data in order to discover some new facts and relationships between data. In this paper, a model that can predict comprehensively the relationship of side effects and drugs will be proposed from the data on the side effects database "SIDER 2" and the data on the chemical-protein interaction database "STITCH4.0". This paper describes that the feature of side effect incidence is extracted and presented as two categories by introducing discriminant analysis using PLS regression model, and that the chemical-protein interaction is classified into two stages of "41%-100%" and "0.1%-40%". Moreover, it describes that support vector machine (SVM) can predict side effect incidence by these two stages.