著者
河村 元 瀬尾 茂人 竹中 要一 松田 秀雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告バイオ情報学(BIO) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.15, pp.39-46, 2008-03-04
参考文献数
15

創薬プロセスでは化合物の化学的、生物学的な活性情報を用いた薬物探索が非常に重要である.化合物の活性を見つけるための構造類似性検索は、化合物の構造の有無をピットで表わしたフィンガープリントとTanimoto係数を用いた化合物類似尺度を用いて評価されることが多い.しかしながら、実際の化合物探索では少数の教師データを用いて精度を向上させながら大量のデータから活性化合物を見つけ出す手法が重要になってくる.そこで本研究では従来のtanimoto係数とRandam ForestのProximity Measureを用いた化合物類似尺度を線形判別分析によって組み合わせる評価法を提案する.特に、proximity MeasureとTanimoto係数は学習手法と非学習手法という本質的に異った評価方法に基づいているので、これらの組合せによって活性化合物予測の精度が向上することが期待される.この手法を化合物データベースのいくつかのデータセットにおいて評価する.これらの結果から、提案手法が化合物活性の探索において有効であることが示される.Chemical and biological activities of compounds provide valuable information for discover ing new drugs. Since the number of compounds that are known to have some activities of a biological class is small in the drug discovery process, the accuracy of the prediction should be increased in databases that have a large number of un-annotated compounds and a small number of annotated compounds of the biological activity. In this paper, we propose a new similarity scoring method composed of a combination of the Tanimoto coefficient and the proximity measure of random forest. The score contains two properties that are derived from unsupervised and supervised methods for predicting active compounds. Thus, the proposed method is expected to indicate compounds that have accurate activities. By evaluating the performance of the prediction compared with the two scores of the Tanimoto coefficient and the proximity measure, we demonstrate that the prediction result of the proposed scoring method is better than those of the two methods by using the Linear Discriminant Analysis (LDA) method. It is also shown that the proposed method can identify active compounds in datasets including several un-annotated compounds.