著者
坂井 創一 竹中 要一
出版者
人工知能学会
雑誌
2019年度 人工知能学会全国大会(第33回)
巻号頁・発行日
2019-04-08

Convolutional Neural Network(CNN)は、ディープニューラルネットワークを用いた画像分類器である.しかし,CNNは分類したクラスに対する判断根拠を提示することができないという欠点をもつ.この問題を解決するため,判断根拠となる画像の一部を提示する可視化手法が提案されている. 分類に対する判断根拠の可視化と同様に,学習過程の視覚化も重要だと考えている. CNNのクラス判別性能はパラメータの影響が大きい事が知られている.そのため,学習過程の視覚化が可能となる事によりパラメータ調整を効率的に行うことができる. そこで我々は学習過程を視覚化する方法を提案する.提案手法はCNNの学習過程におけるエポック毎に,任意のクラスの分類判断根拠画像を生成する.提案手法の有効性を検証するため,MNISTデータセットを用いた。その結果、提案手法が,従来手法では不可能であった任意のクラスに対する学習過程を視覚化できることを示した.
著者
グエンカムリー 瀬尾 茂人 竹中 要一 松田 秀雄
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2010-BIO-20, no.7, pp.1-8, 2010-02-25

医薬品開発の大きな課題の一つとして,新たな薬の候補となる化合物を効果的に発見するため,化合物集合の中から特定のタンパク質に作用する可能性のある候補化合物を計算機によって探索する過程がある.候補化合物の探索には化合物の構造類似性が用いられていることが多いがデータベースに登録されている化合物量が日々増加しており,類似化合物検索の高速化が必要とされている.本研究では,化合物の部分構造情報を数値化した構造キーと,その類似尺度の一つとして Tanimoto 係数を用いた高速な類似化合物検索方法を提案する.提案手法では,化合物集合をクラスタリングするより類似化合物検索を高速化する.また,提案手法を従来手法と比較し,提案手法を評価する.
著者
草田 義昭 瀬尾 茂人 竹中 要一 野口 眞三郎 松田 秀雄
雑誌
研究報告バイオ情報学(BIO) (ISSN:21888590)
巻号頁・発行日
vol.2016-BIO-45, no.7, pp.1-6, 2016-03-11

遺伝子発現プロファイルの臨床応用は,近年精力的に研究が行われている.しかしマイクロアレイを用いたデータ解析においては,”バッチ効果” を取り除くことが不可欠であり,さらに逐次サンプルが追加される臨床現場では,1 サンプル毎に正規化が完結することが求められている.我々は,ノンパラメトリックZ標準化 (NPZ) 法を提案し,既存の手法と比較検討を行った.まず,公共のデータベースからエストロゲン受容体 (ER) とヒト上皮増殖因子受容体 2 (HER2) の免疫組織化学 (IHC) 染色の結果を有する 2,813 症例 (24 データセット) のマイクロアレイの発現データを抽出した.続いて,CEL ファイルからバックグランド補正及び,log2 変換のみを行ったもの (Raw), 既存の 4 つの正規化法 [Microarray Suite 5.0(MAS5),frozen robust multiarray analysis (fRMA),radius minimax (RMX)]. に対して,下記の 6 つの数値変換 [無変換,シングルアレイ数値変換(RANK,,Z,NPZ,,YuGene),マルチアレイ数値変換 (ComBat)] を加えて,各々の ER と HER2 の IHC 染色の結果と mRNA の発現の一致率を比較した.シングルアレイ数値変換を行うことで IHC 染色と mRNA の発現の一致率は改善した.一方で,マルチアレイ数値変換は,主成分分析ではバッチ効果を他の手法に比して除去しているように図示されたが,実際には IHC 染色との一致率が低下していた.さらに,乳癌の予後と数値変換の検討の結果,MAS5 後に NPZ を加えることで,無変換,マルチアレイ数値変換と比べて 2 群の差が明瞭となった.今回,我々は乳癌のデータセットを用いて数値変換の与える影響について検討を行った.シングルアレイ数値変換を追加することで,臨床における発現データのバッチ効果の除去に有効である可能性が示唆された.
著者
河村 元 瀬尾 茂人 竹中 要一 松田 秀雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告バイオ情報学(BIO) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.15, pp.39-46, 2008-03-04
参考文献数
15

創薬プロセスでは化合物の化学的、生物学的な活性情報を用いた薬物探索が非常に重要である.化合物の活性を見つけるための構造類似性検索は、化合物の構造の有無をピットで表わしたフィンガープリントとTanimoto係数を用いた化合物類似尺度を用いて評価されることが多い.しかしながら、実際の化合物探索では少数の教師データを用いて精度を向上させながら大量のデータから活性化合物を見つけ出す手法が重要になってくる.そこで本研究では従来のtanimoto係数とRandam ForestのProximity Measureを用いた化合物類似尺度を線形判別分析によって組み合わせる評価法を提案する.特に、proximity MeasureとTanimoto係数は学習手法と非学習手法という本質的に異った評価方法に基づいているので、これらの組合せによって活性化合物予測の精度が向上することが期待される.この手法を化合物データベースのいくつかのデータセットにおいて評価する.これらの結果から、提案手法が化合物活性の探索において有効であることが示される.Chemical and biological activities of compounds provide valuable information for discover ing new drugs. Since the number of compounds that are known to have some activities of a biological class is small in the drug discovery process, the accuracy of the prediction should be increased in databases that have a large number of un-annotated compounds and a small number of annotated compounds of the biological activity. In this paper, we propose a new similarity scoring method composed of a combination of the Tanimoto coefficient and the proximity measure of random forest. The score contains two properties that are derived from unsupervised and supervised methods for predicting active compounds. Thus, the proposed method is expected to indicate compounds that have accurate activities. By evaluating the performance of the prediction compared with the two scores of the Tanimoto coefficient and the proximity measure, we demonstrate that the prediction result of the proposed scoring method is better than those of the two methods by using the Linear Discriminant Analysis (LDA) method. It is also shown that the proposed method can identify active compounds in datasets including several un-annotated compounds.
著者
竹中 要一 若尾 岳志
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.19, no.3, pp.193-212, 2012-09-30 (Released:2012-12-26)
参考文献数
24
被引用文献数
2 6

地方自治体が制定する条例(規則も含め,以下例規という)は,章節/条項号という階層を有する,基本的に構造化された文書である.各自治体はそれぞれ別個に各議会等でこの例規を制定するため,複数の自治体が同一の事柄に関する規定(例えば「淫行処罰規定」など)を有している事が多い.この同一の事柄に関する規定の自治体間における異同を明らかにするための比較は,法学教育や法学研究,地方自治体法務,企業法務において実施されている.実務における法の比較では,対応する条項を対とし,それらの条文を左右または上下に並べた条文対応表の作成が主体となっている.これまで条文対応表は手作業で作成されてきたが,対象とする例規の条数や文字数が多い場合の表作成には 3 時間以上も必要としていた.そのため計算機による条文対応表の作成支援が強く求められているが,本件に関する研究はこれまでに行われていない.そこで我々の研究は,条文対応表を計算機で自動作成することによる条文対応表の作成支援を目的とする.この目的を達成するため,我々は条文対応表を,各条をノードとする二部グラフとしてモデル化し,このモデルに基づき条文対応表を自動作成するために有効な手法の検討を行った.二文書間の類似度を定義する多くの研究がこれまでに報告されている.これらの類似度比較手法より本研究ではベクトル空間モデル,最長共通部分列,及び文字列アライメント(編集コスト可変のレーベンシュタイン距離)に基づく 96 個の類似尺度の性能を比較した.評価には愛媛県の 11 の条例とそれに対応する香川県の 11 の条例を用い,法学者が作成した条文対応表に基づき正解率を求めた.その結果,名詞,副詞,形容詞,動詞,連体詞を対象としたベクトル空間モデルに基づく類似尺度の正解率が 85% と最も高かった.また,文字列アライメントに基づく類似尺度の正解率は最高で 81%,最長共通部分列は最高で 75% であった.本研究は条文対応表の作成支援であるため,推定された対応関係の信頼度,あるいは尤もらしさを提示する事が望ましい.そこで各比較手法で最も正解率の高かったパラメータを用いた合計 3 つの類似尺度に対して受信者操作特性曲線による評価を行ったが,曲線下面積がいずれも狭くて信頼度の尺度として適さない.そこで,推定された対応関係の類似度を二番目に高い類似度を持つ対応関係の値で割る事による正規化を行ったところ,最長共通部分列の曲線下面積が 0.80 と最も高く,ベクトル空間モデルの面積は 0.79 と良好であった.以上の評価結果より,条文対応表の作成支援では条見出しに対して最長共通部分文字列を,条文に対してベクトル空間モデルをそれぞれ適用した類似尺度を併用する事が,そして得られた条文対応関係の信頼度を評価する尺度としては二番目に高い類似度で割った値を用いるとよい事を明らかにした.
著者
大熊 祐太 瀬尾 茂人 竹中 要一 松田 秀雄
雑誌
研究報告バイオ情報学(BIO)
巻号頁・発行日
vol.2012, no.26, pp.1-7, 2012-06-21

遺伝子の機能は研究され, 遺伝子に付加される機能情報は日々増加し続けている.こうした遺伝子機能情報を利用した解析手法の一つに, 2つの実験条件の比較を目的とした遺伝子機能グループ解析がある.しかし, この解析手法では遺伝子機能の時間変化を解析することができない.そこで本研究では, 時系列データをスライディングウィンドウ方式で分割し, すべての分割期間に対して遺伝子機能グループ解析手法を実行することで時系列に対応できる遺伝子機能グループ解析を提案する.その結果, ある遺伝子機能が特定の期間で有意に発現していることを示した.Gene function is researched and gene functional information which is annotated on gene is increasing continuously. Gene Set Analysis is one of a method using gene functional information, and we use it when we want to compare two groups. However, this method can not be applied to time-series gene expression profile. In this reserch, I propose a method to analyze gene function groupsand handle time-series data. The method extracts a time period in which works from a time-series gene expression profile.