著者
金山 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.117, pp.61-66, 2005-11-21

日本語の統計的構文解析において、自立語の語彙の違いが統計モデル上で充分に反映されず、語彙運択を必要とする係り受けの解析誤りの原因となっている。本稿では、「既存の統計的構文解析器は、読点に過剰に依存している」という仮定に基づき、読点を無視して学習を行う統計モデルを構築して、用言に係る助詞句の係り受けの改良を図る。提案手法により、語彙を区別する素性の効用が増すとともに、不自然な読点が打たれている文に対しての頑健性が高まった。In Japanese statistical syntactic parsing, the selection of content words does not have much effect on dependency decision between bunsetsus mainly because of the data sparseness. To overcome parsing errors caused by this lack of lexical information, this paper proposes a statistical learning method that ignores commas in sentences, drawing on the observation that the existing statistical parsers rely too much on such punctuation. This method increases the effect of features that distinguish among content words, and the model is robust for sentences where commas are not used properly.

言及状況

はてなブックマーク (1 users, 1 posts)

Twitter (1 users, 1 posts, 0 favorites)

収集済み URL リスト