- 著者
-
北 研二
小倉 健太郎
森元 逞
矢野 米雄
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.34, no.9, pp.1937-1943, 1993-09-15
- 被引用文献数
-
30
自然言語処理では、形態素レベルにおける曖昧性や統語的な曖昧性などさまざまな曖昧性に対処する必要がある。このような曖昧性を軽減するための実際的な方法の一つに、慣用表現や定型表現等の複合的な表現を一つのまとまりとして処理することがあげられる。近年、世界各地で大規模コーパスの構築が行われており、大量な言語データが容易に手に入るようになってきている。本論文では、頻繁に使用される定型的な表現をコーパスから自動的に抽出する基準として「仕事量」という概念を導入する。仕事量は、いくつかの単語を一まとまりの単位と考えることにより、各単語を別個に処理するよりも、どれだけの処理が削減できるかということを定量的に測る尺度である。また、仕事量基準を用いた定型表現の自動抽出方法について述ぺ、提案した方法を実際の日本語のコーパスに適用することにより、その有効性を示す。また、コーパスから抽出された定型表現を形態素解析に組み入れることにより、単語区切りや単語誤りをはじめとする形態素レベルの誤りを削減できることを示す。