著者
浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.4, pp.49-56, 2003-01-20
被引用文献数
1

一般的に日本語固有表現抽出で提案されている手法は形態素解析とチャンキングの組み合わせによる.形態素解析出力結果をそのままチャンカーの入力にすると,形態素解析結果より小さい単位の固有表現を抽出することは困難である.そこで,文字単位でチャンキングを行う手法を提案する.まず,統計的形態素解析器で入力文を冗長的に解析を行う.次に,入力文を文字単位に分割し,文字,字種および形態素解析結果のn次解までの品詞情報などを各文字に付与する.最後に,これらを素性として,サポートベクトルマシンに基づいたチャンカーにより決定的に固有表現となる語の語境界を推定する.この手法により,1次解のみを用いる場合より豊かな素性をチャンカーに与えることができ,固有表現抽出の精度を向上させることができた.CRL 固有表現データを用いて評価実験(交差検定 5-fold)を行った結果,F 値約 88% という高精度の結果が得られた.Named Entity (NE) extraction is a task in which proper nouns and numerical information are extracted from texts. A method of cascading morphological analysis and chunking is usually used for NE extraction in Japanese. However, such a method cannot extract smaller NE units than morphological analyzer outputs. To cope with the unit problem, we propose a character-based chunking method. Firstly, input sentences are redundantly analyzed by a statistical analyzer. Secondly, the input sentences are segmented into characters. The characters are annotated redundantly with the character types and POS tags of the top n best answers that are given by the statistical morphological analyzer. Finally, we do chunking deterministically based on support vector machines. The method can introduce richer features for chunkers than the method based on single morphological analysis result. We apply our method to IREX NE task using CRL Named Entities data. The cross validation result of the F-value being 88% shows the effectiveness of the method.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

@syou6162 これ確かこの年の情報処理学会山下記念研究賞だったと思います http://ci.nii.ac.jp/naid/110002911617/

収集済み URL リスト