著者
杉原 大悟 増市 博 梅基 宏 鷹合 基行
出版者
一般社団法人情報処理学会
雑誌
研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.57-64, 2009-01-15
参考文献数
16
被引用文献数
1

本稿では,Wikipedia の記事タイトルを機械学習手法を用いて固有名詞クラスへと分類する際に Wikipedia のカテゴリ階層を分類器の素性として用いた場合の効果について報告する.ある記事タイトルに関連する Wikipedia のカテゴリネットワーク情報を分類器の素性として用いるために,あるカテゴリのカテゴリ階層構造をシンプルな基準 「主要カテゴリからの最短経路」 によって Wikipedia のカテゴリネットワークから抽出した.Wikipedia の語を関根の拡張固有名詞階層へ機械学習手法を用いて分類する実験において,得られたカテゴリ階層構造の効果を確認した.固有名詞クラスの粒度は荒いクラス分類 (固有名詞階層の深さ 2 ) と細かいクラス分類 (固有名詞階層の深さ 4 ) の 2 種類を用意し,荒い固有名詞分類においては 7 クラスおよび 15 クラスへと分類する実験,細かい固有名詞分類においては 118 クラスへと分類する実験を行った.カテゴリ階層構造を用いない場合と比較して,カテゴリ階層構造を用いた場合に,より良い F 値が得られた.最良の分類器による精度はそれぞれ F 値 91.33,F 値 89.68,F 値 84.06 であった.また,カテゴリ階層構造は Recall の向上に特に効果的であり,その効果は分類先の固有名詞分類の粒度が細かくなれば減少することが分かった.We consider the effect of hierarchical category structures of Wikipedia in experiments for named entity categorization based on machine learning methods. We extracted hierarchical category structures of each category simply based on the shortest path from " Category:Main Category" of Wikipedia. We checked the effect of the hierarchical category structure in categorization of term of Wikpedia to named entity class defined by Sekine's Extended Named Entity Hierarchy. We prepared 3 types of experimental settings on the number and granularity of named entity classes: The first one is categorization to rough-grained 7 classes of named entity, the second is categorization to rough-grained 15 classes of named entity and the third is categorization to fine-grained 118 classes of named entity. The classifier learned with the hierarchical category structure got better than those without hierarchical category structure in F-measure. The F-measures of our best classifier are respectively 91.33%, 89.68% and 84.06% in above 3 experimental settings. Our study found that hierarchical category structures are especially effective in the recognition of named entities in categorization to rough-grained classes of named entity and its effect declines in categorization to fine-grained classes of named entity.