著者
田上 諒 越前 谷博 荒木 健治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-238, no.2, pp.1-6, 2018-12-04

本報告では,対訳辞書などの高品質な対訳知識を用いることなく,コンパラブルコーパスから対訳文を自動抽出する手法を提案する.提案手法では,単語分散表現を用いて翻訳行列と類似度計算を行うことで対訳文を抽出する.その際,類似度計算には Earth Mover's Distance を用いる.更に,提案手法では文長の違いを重みとして類似度に用いることで抽出精度の向上を図っている.ニュース記事のコンパラブルコーパスを用いた性能評価実験の結果,全記事の平均の F 値はベースラインで 0.13, EMD のみのシステムと提案手法にける文長を考慮しない場合では共に 0.42,文長を考慮した場合は 0.49 となった.これらの結果から,文長を考慮した提案手法の有効性が確認された.