- 著者
-
井ノ上 直己
森元 逞
- 雑誌
- 全国大会講演論文集
- 巻号頁・発行日
- vol.42, pp.200-201, 1991-02-25
- 被引用文献数
-
1
日本語文を理解するためには種々の知識が必要である。とりわけ、シソーラスは自然言語処理における最も重要な知識である。しかし、田中らが指摘しているように、既存のシソーラスには下位の部分で多種多様な連想関係が存在するため、そのまま自然言語処理に適応するには問題が多い。そこで、自然言語処理に使用できるシソーラスを体系だてて作成する方法が、種々提案されているが、すべてを人手で作成することは容易ではない。一方、国語辞典の語釈文や客観的なデータ(例えば、名詞と動詞の係り受けデータ)を用いて自動的に単語を分類する手法も提案されている。前者は普遍的なシソーラスの作成が期待できる。また、後者の手法はクラスタリング手法と呼ばれ、なんらかの意味的な近さを表す距離を用いて、通常階層的に分類する。しかし、このような距離を用いる場合、妥当な意味分類ができるように??闘値を定める必要があるため、原理的にはすべての単語に対して階層構造を作成することが可能であるが、シソーラスではなくむしろ意味素性を作成することが目的となる。そこで、筆者らは比較的作成が容易なシソーラスの上位は人手により作成したものあるいは既存のシソーラスを用い、人手により作成が困難と思われる下位のレベルはクラスタリング手法を用いて単語を自動的に階層分類することとした。本稿では、当研究所で構築している対話データベース(ADD)から抽出した係り受け関係を用いて名詞を自動的に分類し、そのクラスタリング結果を既存のシソーラスと組み合わせる方法を示す。また、作成したシソーラスについて検討する。