著者
日野 浩平 宇津呂 武仁 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.73, pp.57-63, 2004-07-15
被引用文献数
1

近年,ウェブ上の日本国内の新聞社などのサイトにおいては,日本語だけでなく英語で書かれた報道記事も掲載しており,これらの英語記事においては,同一時期の日本語記事とほぼ同じ内容の報道が含まれている.本研究では,これらの報道記事のページから,日本語で書かれた文書および英語で書かれた文書を収集し,多種多様な分野について,分野固有の固有名詞(固有表現)や事象・言い回しなどの翻訳知識を自動または半自動で獲得するというアプローチをとる.翻訳知識獲得においては,まず,報道内容がほぼ同一もしくは密接に関連した日本語記事および英語記事を検索する.そして,関連記事組における訳語候補の共起に基づく相関尺度を用いて,二言語間の訳語対応を推定する.本稿では,この尺度を用い,英語タームの出現頻度の分布に応じて,訳語対応推定性能が変化するかどうかを調査し,その相関を評価する.そして,英語タームの頻度が大きいほど,高い訳語対応推定性能が達成できることを示す.This paper focuses on bilingual news articles on WWW news sites as a source for translation knowledge acquisition. We take an approach of acquiring translation knowledge of domain specific named entities, event expressions, and collocational expressions from the collection of bilingual news articles on WWW news sites. In this framework, pairs of Japanese and English news articles which report identical contents or at least closely related contents are retrieved. Then, a statistical measure is employed for the task of estimating bilingual term correspondences based on co-occurrence of Japanese and English terms across relevant Japanese and English news articles. This paper then examines the correlation of term frequencies and correctness of term correspondences estimation. We experimentally show that the more frequent the target English terms be, the more reliably bilingual term correspondences can be estimated.