著者
東 藍 浅原 正幸 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.53, pp.67-74, 2006-05-19
被引用文献数
5

本稿では,日本語形態素解析において問題となる未知語処理に対して条件付確率場(ConditionalRandomFields CRF)を適用する手法を提案する.提案手法では,形態素解析と同時に入力文中の部分文字列に対して未知語候補を追加することにより,形態素解析と未知語処理を同時に行う.また,従来最大エントロピーマルコフモデル(MaximumEntropyMarkovModelMEMM)などを適用した手法で指摘されてい0たlabelbiasあるいはlengthbiasの影響は,単に既知語の解析において問題になるだけではなく,未知語処理においても重要な問題となることを示し,CRFを適用することによりこれらの問題が解決されることを示す.そして大規模な正解タグ付コーパスを用いて実験し,本稿の提案手法の有効性を検証したThis paper proposes a new method forJapanese morphological analysis with unknown word (i,e out-of vocabularyword)processing The Japanese morphological analysis is based on conditional random fields(CRF)on a word trells.In the word trellis,the analyzer expands not only knownwords(i・ein-vocabularyword)but also substrings in a sentence as word candidates Kudo(Kudo 2004)discussed an issue that maximum entropy Markov model(MEMM)has label as well as length bias problems in known word processing and CRFs have potential to cope with them.We discuss the same issue in unknown word processing.Evaluation experiments on large-scale corpora show the effectiveness and impact on the proposed method.

言及状況

はてなブックマーク (3 users, 3 posts)

Twitter (1 users, 1 posts, 0 favorites)

収集済み URL リスト