著者
小薮 駿 大川 剛直
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.15, pp.1-8, 2012-06-21

文献からのタンパク質相互作用情報抽出において,十分な量の訓練データが得られない場合,仮ラベル推定に基づく半教師あり学習が有効である.このようなタイプの半教師あり学習では仮ラベルを与える際に,誤ってラベルを付与することが精度低下の原因となるため,いかに正確に仮ラベルを付与するかが,極めて重要である.そこで本研究では、複数の分類器を用い,その共通コンセンサスを得る際に,分類器の類似度や学習手法の信頼度を導入することで正確な仮ラベル決定が可能となる手法を提案する。相互作用情報抽出実験の結果として,データセットが比較的大きな場合に,提案手法を用いることで,より精度の高い抽出が達成された.また従来手法との比較において,F 値と再現率では同等,もしくは少し劣る結果となったが,適合率の観点では提案手法が優位な結果を示すことが確認された.Semi-supervised learning based on tentative label prediction is a useful technique for automatic extraction of protein-protein interaction from litratures if enough training instances cannot be prepared. In such a framework of semi-supervised learning, how we predict the correct labels is very important for accurate extraction. In this paper, we propose a method of predicting tentative labels based on multiple classifiers introducing two types of measures for evaluating each classifier, similarity among the classifiers and reliability of the classifiers. As a result of experiment, the proposed method shows higher precision values for relatively large dataset, in comparison with conventiional methods.