著者
鈴木 英之進 安藤 晋
出版者
横浜国立大学
雑誌
基盤研究(B)
巻号頁・発行日
2004

多視点・多粒度型知識発見のためのデータマイニング手法として,データの重要部分を確率的クラスタリングにより要約し,情報量規準をもとに色相を割り振る方法を考案した.この方法は,医療検査データで有効性が示されたわれわれのプロトタイプラインの拡張となっている.この方法の有効性をテキスト画像データであるウェブページデータを対象として調べ,Googleに比較して再現率,適合率,および発見時間の全てにおいて優れていることを示した.この手法を改良・発展して最終手法とし,ウェブページデータやネットワーク侵入データなどに適用してその有効性を定量的に評価した.ウェブページデータを用いた実験は,多数のウェブページの内容をA4用紙1枚の表示結果から把握する課題について行った.一定時間に多数の質問を課す形式のため,評価指標としては被験者たちの正解数を採用し,Googleに比較して約35%増加することに成功した.画像やキーワードに関する個別処理は必要であるものの,知識発見のために適切な複数の視点と粒度で情報を可視化するという当初の目的を達成できたと考える.ネットワーク侵入データを用いた実験は,ウェブページへのアクセス履歴からの予測問題について行った.不正アクセス検知に関する再現率・適合率,珍しい不正アクセスの発見,可視化結果の見易さなどに関して良好な結果を得た.研究過程において,多目的型探索手法,情報量評価指標,および述語データ用クラスタリングなども開発してそれらの有効性を確認したその他,仏国カン大学と協力してアイテム集合トランザクションデータ可視化手法を開発し,良好な結果を得た.サッカーに代表される各種時空間データへの適用も進め,可視化と知識発見の両面で成果をあげた.
著者
山田 悠 鈴木 英之進 横井 英人 高林 克日己
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告知能と複雑系(ICS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.30, pp.141-146, 2003-03-13

本論では,時系列属性を含むデータから決定木を学習する新しい方式を提案する.時系列属性は,値と時刻のペアについてのシーケンスとして表される時系列データを値にとる属性であり,種々の実応用問題に頻出するために重要であると考えられる.われわれが提案する時系列決定木は,内部ノードに時系列データを持ち,時系列データに関する距離に基づいて例集合を分割する.最初に動的時間伸縮法に基づく基準例分割テストを定義し,次にこれを用いた決定木学習法を示す.実験の結果,提案手法は他の手法に比較して理解しやすく正確な決定木を学習でき,ることが分かった.さらに医療問題への適用の結果,時系列決定僕は知識発見に有望であることが分かった.This paper proposes a novel approach for learning a decision tree from a data set with time-series attributes. A time^series attribute takes, as its value, a sequence of values each of which is associated with a time atamp, and can be considered as important since it fruquantly in real-world applications. Our time-series tree has a time sequence in its internal node, and splits examples based on similarities between a pair of time sequences. We first define our standard example split test based on dynamic time warping, then propose a decision tree induction procedure for the split test. Experimental results confirm that our induction method, unlike other methods, constructs comprehensive and accurate trees. Moreover, a medical application shows that our time-series tree is promising in knowledge discovery.