著者
新納 浩幸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.86, pp.29-36, 2001-09-10
被引用文献数
3

自然言語処理では個々の問題を分類問題として定式化し,帰納学習の手法を利用して,その問題を解決するというアプローチが大きな成功をおさめている.しかしこのアプローチには帰納学習で必要とされる訓練データを用意しなければならないという大きな問題がある.この問題に対して,近年,少量のラベル付き訓練データから得られる分類規則の精度を,大量のラベルなし訓練データによって高めてゆくseed 型の学習が散見される.ここではその中心的な手法であるCo-training を語義判別規則に適用することを試みる.ただしCo-training では独立な組の素性集合を設定する必要がある.現実的にはこの独立性の条件が厳しいため,得られる規則の精度が頭打ちになってゆく.本論文ではこの問題を回避するために,追加事例の選択に素性間の共起性を考慮することでCo-training の手法を改良する.実験では3 つの語義選択問題について本手法を適用した.結果,通常のCo-training を適用する以上の精度の向上が見られた.In natural language processing,it is exective to convert problems to classi ?cation problems,and to solve them by an inductive learning method.However,this strategy needs labeled training data which is fairly expensive to obtain.To overcome this problem,some learning methods using unlabeled training data have been proposed.Co-training is representative in such methods.In this paper,we apply the co-training method to a word sense disambiguation problem.However,co-training needs two features which satisfy the conditional independence assumption.This assumption is too rigid.We have no choice but to use incomplete two features,and then the accuracy of learned rules reaches the ceiling.In this paper,we check co-occurrence between two features to avoid such phenomena when we add unlabeled instances to training data.We applied our method to word sense disambiguation problems for three words.Our method improved the precision of the original co-training.

言及状況

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト