- 著者
-
飯田 龍
乾健太郎
松本裕治
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.45, no.3, pp.906-918, 2004-03-15
- 参考文献数
- 24
- 被引用文献数
-
15
センタリング理論のような言語学的な知見を,機械学習を用いた照応解析に統合する一方法を提案する.従来の照応解析手法は,大きく規則ベースの手法と統計的な手法に分類でき,それぞれ独立に研究がなされてきた.規則ベースの手法では,言語学的知見に基づき人手で規則を記述するが,照応現象を包括的にとらえる規則を書き尽くすことは困難である.一方,機械学習に基づく手法では,人手では扱うことのできない規則の組合せを考慮できるが,言語学的知見を有効に活用していない.これら2つの手法をうまく統合することによって,両者の利点を同時に引き出すことができれば,精度の向上がさらに期待できる.本論文では2つの手法の統合を目指し,具体的な方法として,(i)センタリング理論に基づく局所的な文脈を考慮した素性(センタリング素性)の導入,および(ii)先行詞候補間を比較するモデル(トーナメントモデル)の2点を提案する.この提案手法を用いて日本語ゼロ代名詞の同定を行い,先行研究の機械学習を用いた手法より精度良く先行詞の同定ができたことを報告する.We propose a method that enhances a machine learning model foranaphora resolution by incorporating linguistically motivatedcontextual clues, such as the centering theory. Conventionalapproaches to anaphora resolution (or more generally coreferenceresolution) can be classified into rule-based approaches andcorpus-based empirical approaches, and they have evolved ratherindependently. In rule-based approaches, efforts have been directedto manual encoding of various linguistic cues into a set of rule.However it is prohibitively difficult to describe rulesexhaustively. On the other hand, empirical approaches with a machinelearning techniques are able to take into account the combination offeatures, which is hard to deal with in the former approaches.However, they hardly exploit the linguistic cues. Therefore, weenvisaged that a method that combines the working of the twoapproaches will perform more effectively. Indeed, our model showsimprovements arising from two sources: (i) the feature of localcontextual factors and (ii) an augmentation of the learning model totake into account comparison between candidates. This model is appliedto resolve Japanese zero-anaphors and outperforms earlier machinelearning approaches.