- 著者
-
颯々野 学
塚本 浩司
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
- 巻号頁・発行日
- vol.99, no.227, pp.1-8, 1999-07-22
本論文では、Eric Brillが提案した変換に基づく誤り駆動型学習を日本語の固有表現抽出に適用する方法について述べる。形態素解析と学習で獲得した有限状態変換器(FST)を遣って固有表現の抽出を行うシステムを作成し、IREX (Information Retrieval and Extraction Exercise)の named entity task のformal run (総合ドメイン)に対して実験を行った。約10,000文のCRL固有表現データから1428個のFSTを学習し、F-measure 71.28を得た。人手作成のFSTの性能には及ばないものの、IREX NEに参加するシステムの半数よりもいい結果である。また、過学習が起きないことも確認した。