- 著者
-
鈴木 潤
藤野 昭典
磯崎 秀樹
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
- 巻号頁・発行日
- vol.2007, no.94, pp.21-28, 2007-09-25
- 参考文献数
- 9
本稿では,半教師あり条件付確率場(Semi supervised conditional random fields)について議論をおこなう.自然言語処理の多くのタスクでは )効果的なモデル学習のために単語やその連接といった特徴を利用する必要があり,一般的に数万次元以上という高次元かつスパースな特徴空間を用いて学習をおこなう必要がある。よって,これらのタスクでは,半教師あり学習の枠組みにおいても,高次元スパース特徴空間に頑健な枠組が求められるそこで。本稿では文献[1]の枠組をベースにし,高次元スパース特徴空間に対して頑健な半教師あり条件付確率場を新たに提案する.また,固有表現抽出およびチヤンキングタスクを用いて半教師あり条件付確率場の性能と性質について検証をおこなった提案法により,従来の教師あり条件付確率場[2],エントロピー正則化に基づく半教師あり条件付確率場[3]と比較して大幅に良い結果が得られたまた,エントロピー、正則化に基づく半教師あり条件付確率場は,理論的にも実験的にも,高次元スパース特徴空間を用いた学習では性能の向上が期待できないことを明らかにする.This paper proposes a novel semi-supervised conditional random field which provides good characteristics with respect to handling the large and sparse feature spaces. Experiments on two real NLP tasks with extremely large feature spaces, such as named entity recognition and syntactic chunking, show that our proposed method significantly improves the state-of-the-art performance obtained from supervised CRFs[2], and semi-supervised CRFs employing the entropy regularization approach[3]. Moreover, this paper reveals that, theoretically and experimentally, semi-supervised CRFs based on the entropy regularization approach[2] cannot work well for improving the performance of tasks with large and sparse feature spaces.