著者
工藤 拓 山本 薫 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. NL,自然言語処理研究会報告 (ISSN:09196072)
巻号頁・発行日
vol.161, pp.89-96, 2004-05-13
参考文献数
21
被引用文献数
26

本稿では,Conditonal Random Fields(CRF)に基づく日本語形態素解析を提案する.CRFを適用したこれまでの研究の多くは,単語の境界位置が既知の状況を想定していた.しかし,日本語には明示的な単語境界が無く,単語境界同定と品詞同定を同時に行うタスクである日本語形態素解析にCRFを直接適用することは困難である.本稿ではまず,単語境界が存在する問題に対するCRFの適用方法について述べる.さらに,CRFが既存手法(HMM,MEMM)の問題点を自然にかつ有効に解決することを実データを用いた実験と共に示す.CRFは,階層構造を持つ品詞体系や文字種の情報に対して柔軟な素性設計を可能にし,label biasやlength biasを低減する効果を持つ.前者はHMMの欠点であり,後者はMEMMの欠点である.また,2つの正則化手法(L1-CRF/L2-CRF)を適用し,それぞれの性質について論じる.

言及状況

Twitter (5 users, 8 posts, 7 favorites)

CiNii 論文 -  Conditional Random Fieldsを用いた日本語形態素解析(解析) http://t.co/XAToYbT3fM
そういえば、MeCab でやってるような、いろんな長さの単語のラティスに対して CRF を適用するみたいなの、日本人にとっては自明な拡張みたいになってるけど、海外の人にとってはそうでもなかったりするんじゃないのかなぁ http://t.co/g2mcA5Cm8i
そういえば、MeCab でやってるような、いろんな長さの単語のラティスに対して CRF を適用するみたいなの、日本人にとっては自明な拡張みたいになってるけど、海外の人にとってはそうでもなかったりするんじゃないのかなぁ http://t.co/g2mcA5Cm8i

収集済み URL リスト