著者
吉川 達也 塚本 弘毅 蓬来 祐一郎 福井 一彦
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. MPS, 数理モデル化と問題解決研究報告 (ISSN:09196072)
巻号頁・発行日
vol.2008, no.17, pp.185-188, 2008-03-04
参考文献数
14

タンパク質とは,生命活動を支える重要な物質の一つである.これらタンパク質固有の機能は,他のタンパク質との相互作用(PPI:Protein-Protein Interaction)によって発現することが解っている.このPPIに関する研究は,生命現象の解明はもとより,最近では医薬品開発の分野でも柱目されている.我々が提案したタンパク質間の親和性予測法は,データセットの構成や規模,親和性スコアの計算に重要なクラスタリング処理によって,結果精度が異なることが予備実験などから解っている.特に,データセットが大規模となる場合に,クラスタリングパラメータ値の予測精度に与える影響が無視できなくなる傾向がある.本研究では,全7056個中に84個の生物学的有意性を持ったタンパク質ペア(BSPPs: Biological Significant Protcin Pails)を含むデータセットを用いて,prevalence=1.19%の高難易度なBSPPs予測問題を設定した.また,親和性スコアの定義から予測精度に影響を及ぼすと考えられる4つのパラメータを抽出し,計144個のパラメータセットを作成した.評価実験から,F-measure最大となるパラメータセットにおいて,F-measure最大となるパラメータセットにおいて,sensitivity(=recall)=27.4%, specificity=91.0%, precision=3.53%, accuracy=90.2%, F-measure=6.25%の結果を得た.これはBSPPsを無作為抽出した場合(F-measure=2.32%)と比較して,約2,69倍の予測精度を獲得しており,タンパク質間親和性予測法の精度向上におけるパラメータ最適化の有効性を示している.