- 著者
-
梶 博行
相薗 敏子
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.42, no.9, pp.2248-2258, 2001-09-15
- 被引用文献数
-
1
対訳辞書は機械翻訳システムや多言語情報検索システムの重要な構成要素である.基本対訳辞書の増補や専門用語対訳辞書の作成を自動化することを目的として,対訳コーパスから語の対訳関係を抽出する新しい方法を開発した.本方法は,コーパス中で共起している語の集合で語を特徴付け,共起語集合の類似度が高い語のペアを対訳語ペアとして抽出する.異なる言語の語を構成要素とする共起語集合の類似度を計算するため,既存の対訳辞書を参照して対訳関係が成立する語を対応付ける.共起語集合の類似度計算という統計処理の中で既知の対訳知識を利用することにより,次の長所をあわせ持つ方法が実現できた.第1に,文レベルの対応付けがなされていない対訳コーパスに適用可能である.第2に,小規模な対訳コーパスから対訳語ペアを抽出することができる.第3に,未知語を含む単純語と複合語の任意の組合せの対訳語ペアを抽出することができる.日英対訳の特許明細書コーパスを用いて,既存の対訳辞書(50 000語の見出し語を持つ日英機械翻訳システムの対訳辞書)に未登録の対訳語ペアを抽出する実験を行った.33.8%の抽出率,76.7%の正解率を達成し,提案方法が実用に供しうるとの結論を得た.本方法は,大規模な対訳コーパスを要求せず,対訳文書を個別に処理していけばよいので,実際的である.今後の課題として,コーパスからの複合語抽出精度を向上させることがあげられる.A new method has been developed for extracting pairs of words that are translations of each other from a parallel corpus. First, for each word of both languages, the set of words co-occurring with it is extracted from the corpus. Then, the similarity between each pair of co-occurring word sets, one for a word of the first language and the other for a word of the second language, is calculated with the assistance of an existing bilingual dictionary of basic words. Finally, pairs of words that bear much similarity are selected. The method has the following features due to the combined use of co-occurrence information given by a corpus and bilingual knowledge given by an existing dictionary. It can extract word translations from rather small, unaligned corpora; it can extract a variety of word translations including pairs of simple words, pairs of compound words, and mixed pairs of simple and compound words. An experiment using Japanese-English patent specification documents achieved 33.8% recall and 76.7% precision; this demonstrates that the method is useful both for improving the coverage of an existing bilingual dictionary and for creating a bilingual dictionary of technical terms. A further problem is to improve the method for extracting compound words from corpora.