著者
工藤 拓 山本 薫 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.47, pp.89-96, 2004-05-14
被引用文献数
26

本稿では Conditonal Random Fields (CRF) に基づく日本語形態素解析を提案する. CRFを適用したこれまでの研究の多くは 単語の境界位置が既知の状況を想定していた. しかし 日本語には明示的な単語境界が無く 単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である. 本稿ではまず 単語境界が存在する問題に対するCRFの適用方法について述べる. さらに CRFが既存手法(HMM MEMM) の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す. CRFは 階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし label biasやlength biasを低減する効果を持つ. 前者はHMM の欠点であり 後者はMEMMの欠点である. また 2つの正則化手法(L1-CRF/L2-CRF) を適用し それぞれの性質について論じる.This paper presents Japanese morphological analysis based on Conditional Random Fields (CRF). Previous work in CRF assumed that observation sequence (word) boundaries were fixed. However, word boundaries are not clear in Japanese, and hence a straightforward application of CRF is not possible. We show how CRF can be applied to situations where word boundary ambiguity exists. CRF offer an elegant solution to the long-standing problems in Japanese morphological analysis using HMM or MEMM. First, flexible feature designs for hierarchical tagsets become possible. Second, influences of label and length bias are minimized. The former compensate weakness in HMM, while the latter overcomes noticed problems in MEMM. We experiment with CRF, HMM, and MEMM on Japanese annotated corpora, and CRF outperform the other approaches.

言及状況

Twitter (5 users, 5 posts, 0 favorites)

CiNii 論文 -  Conditional Random Fieldsを用いた日本語形態素解析(解析) http://t.co/XAToYbT3fM
そういえば、MeCab でやってるような、いろんな長さの単語のラティスに対して CRF を適用するみたいなの、日本人にとっては自明な拡張みたいになってるけど、海外の人にとってはそうでもなかったりするんじゃないのかなぁ http://t.co/g2mcA5Cm8i
Conditional Random Fieldsを用いた日本語形態素解析(解析) http://t.co/Esm2FZgp0A

収集済み URL リスト