著者
大熊 智子 梅基 宏 三浦 康秀 増市 博
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.16, no.3, pp.3_51-3_80, 2009 (Released:2011-09-01)
参考文献数
31

事物の数量的側面を表現するとき,数詞の後に連接する語を一般に助数詞と呼ぶ.英語などでは名詞に直接数詞が係って名詞の数が表現されるが,日本語では数詞だけでなく助数詞も併せて用いなければならない.名詞と助数詞の関係を正しく解析するためには,助数詞が本来持つ語彙としての性質と構文中に現れる際の文法的な性質について考慮する必要がある.本稿では,数詞と助数詞の構文を解析するための Lexical-Functional Grammar (LFG) の語彙規則と文法規則を提案し,その規則の妥当性と解析能力について検証した.提案した規則によって導出される解析結果 (f-structure) と英語,中国語の f-structure をそれぞれ比較することによって,日本語内での整合性と多言語間との整合性を有していることが確認できた.また,精度評価実験の結果,従来の LFG 規則に比べて通貨・単位に関する表現では 25%,数量に関する表現では 5%,順序に関する表現では 21% の F 値の向上が認められた.
著者
杉原 大悟 増市 博 梅基 宏 鷹合 基行
出版者
一般社団法人情報処理学会
雑誌
研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.57-64, 2009-01-15
参考文献数
16
被引用文献数
1

本稿では,Wikipedia の記事タイトルを機械学習手法を用いて固有名詞クラスへと分類する際に Wikipedia のカテゴリ階層を分類器の素性として用いた場合の効果について報告する.ある記事タイトルに関連する Wikipedia のカテゴリネットワーク情報を分類器の素性として用いるために,あるカテゴリのカテゴリ階層構造をシンプルな基準 「主要カテゴリからの最短経路」 によって Wikipedia のカテゴリネットワークから抽出した.Wikipedia の語を関根の拡張固有名詞階層へ機械学習手法を用いて分類する実験において,得られたカテゴリ階層構造の効果を確認した.固有名詞クラスの粒度は荒いクラス分類 (固有名詞階層の深さ 2 ) と細かいクラス分類 (固有名詞階層の深さ 4 ) の 2 種類を用意し,荒い固有名詞分類においては 7 クラスおよび 15 クラスへと分類する実験,細かい固有名詞分類においては 118 クラスへと分類する実験を行った.カテゴリ階層構造を用いない場合と比較して,カテゴリ階層構造を用いた場合に,より良い F 値が得られた.最良の分類器による精度はそれぞれ F 値 91.33,F 値 89.68,F 値 84.06 であった.また,カテゴリ階層構造は Recall の向上に特に効果的であり,その効果は分類先の固有名詞分類の粒度が細かくなれば減少することが分かった.We consider the effect of hierarchical category structures of Wikipedia in experiments for named entity categorization based on machine learning methods. We extracted hierarchical category structures of each category simply based on the shortest path from " Category:Main Category" of Wikipedia. We checked the effect of the hierarchical category structure in categorization of term of Wikpedia to named entity class defined by Sekine's Extended Named Entity Hierarchy. We prepared 3 types of experimental settings on the number and granularity of named entity classes: The first one is categorization to rough-grained 7 classes of named entity, the second is categorization to rough-grained 15 classes of named entity and the third is categorization to fine-grained 118 classes of named entity. The classifier learned with the hierarchical category structure got better than those without hierarchical category structure in F-measure. The F-measures of our best classifier are respectively 91.33%, 89.68% and 84.06% in above 3 experimental settings. Our study found that hierarchical category structures are especially effective in the recognition of named entities in categorization to rough-grained classes of named entity and its effect declines in categorization to fine-grained classes of named entity.