- 著者
-
北村 美穂子
松本 裕治
- 出版者
- 一般社団法人 言語処理学会
- 雑誌
- 自然言語処理 (ISSN:13407619)
- 巻号頁・発行日
- vol.13, no.1, pp.3-25, 2006
高精度の機械翻訳システムや言語横断検索システムを構築するためには, 大規模な対訳辞書が必要である.文対応済みの対訳文書に出現する原言語と目的言語の単語列の共起頻度に基づいて対訳表現を自動抽出する試みは, 対訳辞書を自動的に作成する方法として精度が高く有効な手法の一つである.本稿はこの手法をベースにし, 文節区切り情報や対訳辞書などの言語知識を利用したり, 抽出結果を人間が確認する工程を設けたりすることにより, 高精度で, かつ, カバレッジの高い対訳表現抽出方法を提案する.また, 抽出にかかる時間を削減するために, 対訳文書を分割し, 抽出対象とする文書量を徐々に増やしながら確からしい対訳表現から段階的に抽出していくという手法についても検討する.8,000文の対訳文書による実験では, 従来手法は精度40%, カバレッジ79%であったのに対し, 言語知識を利用した提案手法では, 精度89%, カバレッジ85%と向上した.さらに人手による確認工程を設けることにより, 精度が96%, カバレッジが85%と向上した.また, 16,000文の対訳文書による実験では, 対訳文書を分割しない方法では抽出時間が約16時間であったのに対し, 文書を4分割する方法では, 約9時間に短縮されたことを確認した.