著者
吉田 健一
出版者
情報処理学会
雑誌
情報処理学会研究報告. ICS, 知能と複雑系 (ISSN:09196072)
巻号頁・発行日
no.90, pp.183-187, 2003-09

ここ数年WWW上のHTML/XMLデータや、化学物質の構造など、従来の統計・機械学習手法が扱ってきたテーブル形式では表現できないデータを解析したいというニーズが顕在下してきている。GBI(Graph Based Induction)法[1,2]は、そのようなニーズを受け比較的初期から研究が進められてきた色付有向グラフをデータ表現に用いた規則学習手法である。本研究ではGBIのための新しいアルゴリズムとして従来用いられてきたグラフの縮約操作を用いないSEA(Stepwise Entropy Analysis)というアルゴリズムを提案する。 SEAは縮約操作がもたらすGBIのgreedinessを柔らげる事で、学習ルールの精度向上を狙ったアルゴリズムである。さらにSEAのもう1つの特徴である相関ルールと識別ルールの同時学習能力についても報告する。The importance of analyzing semi-structured data, such as hyper linked WWW text, XML data and chemical formulae, promotes research on a group of data-mining methods which can handle trees, graphs, and other non-table format data. Among these, GBI : Graph Based Induction [1, 2] is one of the incipient methods to extract hidden rules from graph-format data. This paper describes an algorithm, SEA : Stepwise Entropy Analysis, using the GBI method. Though the conventional GBI algorithm contracts with the input graph during the analysis, this new algorithm does not use a contraction operation. Although this new algorithm is still greedy, its greediness is slightly weakened by omitting the contraction operation. Another characteristic of SEA, the simultaneous discovery of the association rule and the classification rule, is also described.