著者
芦田 和重 佐藤 哲大 中村 建介 湊 小太郎
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2013, no.1, pp.1-8, 2013-03-14

DNA の塩基配列中の変異が原因とされるガンなどの疾病について,変異箇所を特定することで診断や治療が行える可能性が期待されている.解析対象の塩基配列中のどの位置にどのような変異が発生しているかを特定する技術は変異コールと呼ばれており,ゲノム解析の中心となる技術の一つである.正確な変異箇所の特定のため高精度の変異コールが必要とされているが,現在の変異コールは精度が低く,アライメントの手法次第では INDEL が検出できない場合や,INDEL 検出の精度を上げることにより SNP 検出の精度が下がるなどの問題がある.そのため,解析の手法を変えた複数回の解析が推奨されており,解析に必要な時間やコストが増大する原因となっている.この問題を解決するため,より精度の高い変異コールツールを開発する必要がある.本研究では,真正細菌の塩基配列中から SNP と INDEL を高精度に同時検出できる変異コールの実現を目的とし,既存のツールによる変異コールの問題点の指摘と,独自のアルゴリズムによる変異コールツールの作成を行った.また,複数の真正細菌を対象とし,作成したツールの精度検証を行った.その結果,SNP 検出の精度を下げない INDEL 検出の実現と,既存のツールによる変異コールでは検出できなかった INDEL の検出に成功した.Identifying mutations in genome DNA sequences is one of most fundamental methods to diagnose or predict hereditary disease or cancer. The technology of specifying mutation is called "mutation calling", and is one of the most important technologies in genomics. Although the highly precise mutation calling is needed for pinpointing mutation, the present mutation calling process has low accuracy and there are some problems. In a certain alignment algorithm, INDEL is undetectable; and the precision of SNP calling falls by raising accuracy of INDEL calling. Therefore, two or more analyses with different tools are recommended, but it causes increasing time and cost. To solve these problems, it is necessary to develop a mutation calling tool with higher-precision. The purpose of this research is to build the mutation calling tool which can detect SNP and INDEL simultaneously with high precision. We investigated some problems of the mutation calling by the known procedure and created a new tool with original algorithm. Moreover, accuracy verification of our tool was performed by analysing two eubacteria. As a result, it enabled the INDEL calling which does not lower the accuracy of SNP calling, and identifying of INDEL which was not detectable in the mutation call by the known procedure.
著者
金谷 重彦 平井 晶 高橋 弘喜 Altaf-Ul-Amin Md. 中村 建介
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SIS, スマートインフォメディアシステム (ISSN:09135685)
巻号頁・発行日
vol.110, no.322, pp.71-76, 2010-11-25

ゲノムプロジェクトの進展に伴って、現在までに、数百種のバクテリアゲノム、数十種の植物および動物のゲノムが解読された。植物における二次代謝産物は約20万種以上と推定され、5万種については構造決定されていると報告されている中で、ゲノムサイエンスの一環として、代謝産物と生物種の関係を体系化することを目的に、文献情報をもとに生物種とその生物において発見された代謝物の関係をデータベース化することを2004年より開始した。本論文では、このようにして開発された代謝物データベースKNApSAcK DBの現状を紹介する。さらに、生物資源の多面的な利用の目的からの代謝物検索を容易にするためのウェブサービスとしてKNApSAcKファミリーの研究開発を進めている(http://kanaya.naist.jp/KNApSAcK_Family/)。現在までにLunch Box(目的:食履歴)、KAMPO(漢方生薬)、KNApSAcK from around the world(世界の薬用植物)などのデータベース構築が完了した。これらのデータベースの現状についても紹介する。