- 著者
-
工藤 拓
山本 薫
松本 裕治
- 雑誌
- 情報処理学会研究報告自然言語処理(NL)
- 巻号頁・発行日
- vol.2004, no.47(2004-NL-161), pp.89-96, 2004-05-14
本稿では Conditonal Random Fields (CRF) に基づく日本語形態素解析を提案する. CRFを適用したこれまでの研究の多くは 単語の境界位置が既知の状況を想定していた. しかし 日本語には明示的な単語境界が無く 単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である. 本稿ではまず 単語境界が存在する問題に対するCRFの適用方法について述べる. さらに CRFが既存手法(HMM MEMM) の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す. CRFは 階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし label biasやlength biasを低減する効果を持つ. 前者はHMM の欠点であり 後者はMEMMの欠点である. また 2つの正則化手法(L1-CRF/L2-CRF) を適用し それぞれの性質について論じる.