- 著者
-
金 淵培
江原暉将
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.35, no.6, pp.1018-1028, 1994-06-15
- 被引用文献数
-
16
日英機械翻訳の精度を低下させる要因の一つとして、文が長すぎるということがある。文が長くなると係り受け構造が複雑となり、構文解析ができず、翻訳に矢敗することが多くなる。この問題を解決するため、われわれは日本語の長文を複数の短文に自動的に分割する研究を行った。われわれの手法は、形態素、品詞、文節カテゴリのようなさまざまな情報をフレキシブルに組み合わせて分割点の認定が行えるという特徴をもつ。さらに、分割を行うと、分割後の文に主語がなくなることがあり、この現象も機械翻訳の精度を悪くする。そこで、主語のなくなった文に対して、自動的に主語を補完する研究を行った。主語補割こは、学習データを用いて、主語になる名詞の特徴ベクトルの確率分布を推定した後、各主語候補に対して主語になれる確率値を算出して主語補完を行う統計的方法を用いている。約400文のニュース文を対象に分割と主語補完の実験を行った。分割点の認定には、分割点が記述されているパターン約100個を用いてパターン・マッチングを行い、約88%の分割点認定率を得た。 また、主語補完の補完率は76%であった。本論文では、短文分割の有効性と方法括よび主語楠完について述ぺる。