著者
米澤 弘毅 五十嵐 学 伊藤 公人
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.22, pp.1-5, 2012-06-21

近年,インフルエンザをはじめ様々な病原体の遺伝子情報が大量に蓄積されつつある.データセットの増大に伴い,配列解析にかかる計算コストが急増している.また,疫学調査活動の差異により,データセットは調査地域や年代に関して大きなサンプリングバイアスを含む.本研究では,進化系統樹を利用してサンプリング密度の高い配列を適宜取り除くリサンプリングアルゴリズムを提案し,その性能を比較実験により評価する.Recently a large number of nucleotide sequences of various pathogens are available in public databases. The growth of the datasets has resulted in an enormous increase in computational costs. Moreover, due to differences in surveillance activities, the number of sequences found in databases varies from one country to another and from year to year. Therefore it is important to study resampling methods to reduce the sampling bias. In this paper we propose a novel algorithm-called the closest-neighbor trimming method-that resamples a given number of sequences from a large nucleotide sequence dataset. We compare the performance of the proposed algorithm with other algorithms by using the nucleotide sequences of human H3N2 influenza viruses.