著者
小原 雄治 加藤 和人 川嶋 実苗 豊田 敦 鈴木 穣 三井 純 林 哲也 時野 隆至 黒川 顕 中村 保一 野口 英樹 高木 利久 岩崎 渉 森下 真一 浅井 潔 笠原 雅弘 伊藤 武彦 山田 拓司 小椋 義俊 久原 哲 高橋 弘喜 瀬々 潤 榊原 康文
出版者
国立遺伝学研究所
雑誌
新学術領域研究(研究領域提案型)『学術研究支援基盤形成』
巻号頁・発行日
2016

①総括支援活動では、支援課題の公募を行い、領域外有識者による審査委員会により選考し、支援を行った。経費上限設定など多くの採択ができるように努めた結果、応募188件、採択93件(採択率49.5%)となった。支援の成果として2017年度に54報の論文発表がなされた。②大規模配列解析拠点ネットワーク支援活動においては、最先端技術を提供するためにそれらの整備や高度化を進めた。遺伝研拠点では染色体の端から端までの連続した配列完成を目指して、ロングリードシーケンサー(PacBio Sequel)、長鎖DNA試料調製技術、さらに1分子ゲノムマッピングシステム(Irysシステム)の最適化を進め、実際の試料に応用した。東大柏拠点では、1細胞解析技術を整備し支援に供するとともに、Nanopore MinIONを用いた一連の要素技術開発を進めた。九大拠点では微生物ゲノムのNGS解析最適化を進めた。札幌医大拠点ではLiquid Biopsyによる体細胞における低頻度変異検出技術開発を進めた。③高度情報解析支援ネットワーク活動では、支援から浮かび上がった課題を解決するソフトウェアの開発を進めた。支援で特に活用されたものは、真核2倍体用denovoハプロタイプアセンブラPlatanus2(東工大)、染色体大規模構造変異高精度検出アルゴリズムCOSMOS、変異解析結果の信頼性を評価するソフトウェアEAGLE(以上、産総研)、エクソン・イントロン境界におけるスプライソソーム結合頻度の解析パイプライン(東大)、であった。また、CLIP-seqデータの解析パイプライン、高速オルソログ同定プログラムSonicParanoid、ロングリード向けアラインメントツールminialign(以上、東大)は今後の活用が予想される。高度化等の成果として48報の論文発表がなされた。
著者
福田 剛志 森下真一 森本康彦 徳山 豪
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告数理モデル化と問題解決(MPS) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.72, pp.1-8, 1996-07-26

データベースからの決定木の構成において、数値属性の取り扱いは非常に難しいとされていた。実際、有名なエントロピーを用いた決定木構成法について、発案者のQuinlan自身、多くの数値属性があるデータに対しては効率を保証できないことを指摘している。この問題に対する解決法として、最適化問題として数理モデル化した二次元関連ルールを分岐法則に使う方法を提案し、効率的な決定本の構成法を、プロトタイプシステムをデータマイニングシステムSONAR(ystem for Optimized Numeric Association Rule)のサブシステムとして実現した。ここでは、数理的側面からの理論的裏付けと実験結果を報告する。We propose an extension of an entropy-based heuristic of Quinlan [Q93] for constructing a decision tree from a large database with many numeric attributes. Quinlan pointed out that his original method (as well as other existing methods) may be inefficient if any numeric attributes are strongly correlated. Our approach offers one solution to this problem. For each pair of numeric attributes with strong correlation, we compute a two-dimensional association rule with respect to these attributes and the objective attribute of the decision tree. In particular, we consider a family R of grid-regions in the plane associated with the pair of attributes For R ∈ R, the data can be split into two classes: data inside R and data outside R. We compute the region R_<opt> ∈ R that minimizes the entropy of the splitting, and add the splitting associated with R_<opt> (for each pair of strongly correlated attributes) to the set of candidate tests in Quinlan's entropy-based heuristic. We give efficient algorithms for cases in which R is (1) x-monotone connected regions, (2) based-monotone regions, (3) rectangles, and (4) rectilinear convex regions. The algorithm for the first case has been implemented as a subsystem of SONAR(System for Optimized Numeric Association Rules) developed by the authors. Tests show that our approach can create small-sized decision trees.