- 著者
-
中挟 知延子
島田 静雄
- 雑誌
- 全国大会講演論文集
- 巻号頁・発行日
- vol.51, pp.41-42, 1995-09-20
本論文では、我々の作成した電子化日本語動詞辞書の構成内容を述べ、その辞書を利用して行った字面のみによる、日本語文章からの動詞の抽出実験の結果を示す。日本語文章において動詞を代表とする用言は文章を理解する上で重要な役割を担っている。そのため、文章中から動詞を正確に抽出できれば、文章の要点をつかむことができ、機械翻訳をする場合にも役に立つ。我々のねらいは、日本語文章から動詞を抽出して、そのまま機械翻訳処理にかけるのではなく、むしろ機械翻訳処理が効率良く行われるように、オリジナルの日本語文章を前もって校正しておくことにある。日本語動詞には複合動詞や語尾に「する」の付いたものがあり、これらに対応する訳語は、英語だと1つの単語ではなく2語以上の動詞句の形である場合が多く、対応する訳語として前置詞も登録しなければならない。また、「書く」・「書ける」・「書かせる」のように同じ語幹でも、語尾の活用が違っていると、対応する訳語は異なる。いずれの場合にも翻訳のための辞書はかなり大きくなってしまう。そこで、前もって日本語文章を校正して、同義のものや冗長な言い回しを簡潔な表現に統一しておけば、機械翻訳の際に辞書を参照する回数が減り、処理効率が増すと考えられる。たとえば「書き留める」の英訳は,"write down"であるが、「記録する」にも同じ英訳があてはまる。もしも文中にこれら2つの動詞が出てきたら、どちらかの動詞に統一しておけば適切であろう。しかも、そのために必要な動詞の抽出を、形態素解析をせずに字面のみでできれば、抽出のための処理の時間や処理システムの規模も少なくて済み、機械翻訳処理の前処理としてシステム全体に対して占める負荷の割合は大きくならないであろう。我々は、自家製の動詞辞書を利用するために、「動詞抽出ツール」を作成し、文章中から複合動詞・「する」動詞を含めた動詞の抽出を試みた。抽出は字面のみで行い、辞書を含めたツールの大きさも、フロッピーディスク1枚に収まる程度にしてパソコン上で実現している。今回述べる動詞辞書は漢字で始まる動詞を中心に作成し、抽出も漢字を用いる動詞にしぼっている。動詞辞書には、ひらがなで始まる動詞も含まれているが、ひらがなのものについては次回の発表で行う。以下、2章で動詞辞書の構成について述べ、3章で「動詞抽出ツール」について述べたあと、実際にツールを用いて文中から動詞を抽出した結果を示す。4章では、3章の抽出結果を考察し、5章にまとめを述べる。