- 著者
-
新納 浩幸
井佐原 均
- 出版者
- 情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.36, no.1, pp.32-40, 1995-01-15
- 被引用文献数
-
35
本論文では簡易な字面処理によって、助詞に相当する定型表現(助詞的定型表現)をコーパスから自動抽出する手法について述べる。ここで抽出する表現は、例えば「に関して」や「に基づく」のように、助詞的な働きをする定型的な表現である。これらの定型表現は処理上、一単語として扱うのが妥当であり、予め収集しておく必要がある。定型表現を自動抽出する従来の手法の多くは対象言語が英語である。しかし日本語の場合、英語と異なり、単語間の共起の強さを計るには、基本的に文を単語に分割するための形態素解析が必要である。しかも形態素解析には、暖味性、未知語などの問題がついてまわり、単語間の共起の強さを計るのは英語ほど容易ではない・完全な字面処理からのアプローチとしては、「ある文字列が1つのユニットになっていればその文字列の前後には様々な種類の文宇が現れる」というアイデアをもとに、大規模コーパスから得られたNグラムによって定型表現を取り出す手法がある。本手法は墓本的にこの考え方を利用する。ただし、助詞約定型表現の持ついくつかのヒューリスティックスと句読魚情報を活用し、完全なNグラムを作ることを避け、そのサブセットである疑似Nグラムと呼ぷある種の文宇列の頻度情報だけを利用する。結果として、簡易な字面処理だけによって、定型表現の抽出が可能となっている。このため、本手法は、実験の拡大、再現が容易であるという利点も持つ。