著者
増市 博 大熊 智子 鷹合 基行
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.106, no.299, pp.1-8, 2006-10-13

本稿では,深い言語処理のための言語理論の一つであるLexical Functional Grammar(LFG)を取り上げ,LFGに基づく日本語文法記述および日本語文解析/生成システムの研究,開発の現状とその応用技術について述べる.日本語LFGシステムの解析カバー率はEDRコーパスを対象とした場合で97.3%であり,適合率85.9%,再現率83.9%の係り受け精度を実現している.また,LFGに基づく文生成では95.7%の生成成功率を実現している.このように深い言語処理は精度およびカバー率の点で実用化のレベルに近づいてきている.さらに,宣言的な文法規則に基づく深い言語解析システムを用いれば,通常の係り受け解析システムよりも豊富な情報を持つ解析結果を得ることができる.今後深い言語処理技術は,より高度な言語処理アプリケーションを構築していく上で重要な役割を担っていくと考えられる.本稿では,このような深い言語処理の応用例として,日本語LFGシステムを用いた,医療テキストを対象とする情報抽出手法について説明を行う.
著者
杉原 大悟 増市 博 梅基 宏 鷹合 基行
出版者
一般社団法人情報処理学会
雑誌
研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.57-64, 2009-01-15
参考文献数
16
被引用文献数
1

本稿では,Wikipedia の記事タイトルを機械学習手法を用いて固有名詞クラスへと分類する際に Wikipedia のカテゴリ階層を分類器の素性として用いた場合の効果について報告する.ある記事タイトルに関連する Wikipedia のカテゴリネットワーク情報を分類器の素性として用いるために,あるカテゴリのカテゴリ階層構造をシンプルな基準 「主要カテゴリからの最短経路」 によって Wikipedia のカテゴリネットワークから抽出した.Wikipedia の語を関根の拡張固有名詞階層へ機械学習手法を用いて分類する実験において,得られたカテゴリ階層構造の効果を確認した.固有名詞クラスの粒度は荒いクラス分類 (固有名詞階層の深さ 2 ) と細かいクラス分類 (固有名詞階層の深さ 4 ) の 2 種類を用意し,荒い固有名詞分類においては 7 クラスおよび 15 クラスへと分類する実験,細かい固有名詞分類においては 118 クラスへと分類する実験を行った.カテゴリ階層構造を用いない場合と比較して,カテゴリ階層構造を用いた場合に,より良い F 値が得られた.最良の分類器による精度はそれぞれ F 値 91.33,F 値 89.68,F 値 84.06 であった.また,カテゴリ階層構造は Recall の向上に特に効果的であり,その効果は分類先の固有名詞分類の粒度が細かくなれば減少することが分かった.We consider the effect of hierarchical category structures of Wikipedia in experiments for named entity categorization based on machine learning methods. We extracted hierarchical category structures of each category simply based on the shortest path from " Category:Main Category" of Wikipedia. We checked the effect of the hierarchical category structure in categorization of term of Wikpedia to named entity class defined by Sekine's Extended Named Entity Hierarchy. We prepared 3 types of experimental settings on the number and granularity of named entity classes: The first one is categorization to rough-grained 7 classes of named entity, the second is categorization to rough-grained 15 classes of named entity and the third is categorization to fine-grained 118 classes of named entity. The classifier learned with the hierarchical category structure got better than those without hierarchical category structure in F-measure. The F-measures of our best classifier are respectively 91.33%, 89.68% and 84.06% in above 3 experimental settings. Our study found that hierarchical category structures are especially effective in the recognition of named entities in categorization to rough-grained classes of named entity and its effect declines in categorization to fine-grained classes of named entity.