著者
山田 寛康 松本 裕治
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.44, pp.57-64, 2002-05-23
参考文献数
10
被引用文献数
3

本稿では 機械学習アルゴリズム Support Vector Machine を用いた英語構文解析法を提案する. 高精度な構文解析を行うには 句のラベルだけでなく 句の主辞がもつ語彙情報をも考慮する必要がある. しかし従来の統計的構文解析モデルは データスパースネスの問題から 主辞の語彙情報を素性として大量に使用することは 逆に精度低下の要因となっていた. 機械学習アルゴリズム Support Vector Machine は 素性空間の次元数に依存しない高い汎化性能と Kernel 関数によって素性の組合せまでも考慮した学習が可能である. そのため主辞の語彙情報を含めた多くの素性とその組合わせを考慮した学習が行える. しかし SVM は 確率を推定するのではなく 2つのクラスを識別する分類器であり 従来多くの統計的構文解析モデルが採用している確率モデルへの直接的な適用が困難である.本稿では 上昇型解析アルゴリズムを用い 構文解析の各段階を 文脈に適切な解析木構築手続きへの分類問題とみなすことでSVMを適用し 解析木構築規則の学習を行う. 解析木は SVMが分類器であることから 決定的に構築される. 本手法を Penn Treebank コーパスを用いて評価した結果 labeledrecall/precision で 88.2/89.0%という高い精度を得ることができた.In this paper, we propose a parsing method for English sentences with machine learning algorithm called Support Vector Machines (SVMs). The performance of statistical parsing strongly depends on how to deal with lexical information and incorporate them into the statistics for parsing. Data sparseness problem arises when using large number of features like head words. As a result, we cannot estimate correct statistics for construction of parse trees. SVMs not only have high generalization performance in sparse data using a large number of features like head words, but also can take into account the combinations of features by virtue of polynomial kernel functions. However, SVMs are classifiers, not probabilistic estimator. Thus, it is difficult to apply SVMs to the probabilistic parsing model directly. Our parser constructs a parse tree for an input sentence with a deterministic bottom-up algorithm. Each parsing process is regarded as a classification task which classifies the context into a procedure for constructing parsed trees. We evaluated our parser using the Penn Treebank corpus, and the result attained over the 88.2/89.0% labeled recall/precision.

言及状況

Google+ (1 users, 1 posts)

http://ci.nii.ac.jp/naid/110002935382 

はてなブックマーク (1 users, 1 posts)

収集済み URL リスト