著者
龍 梓 木村 龍一郎 飯田 頌平 宇津呂 武仁 三橋 朋晴 山本 幹雄
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J102-D, no.3, pp.104-117, 2019-03-01

ニューラル機械翻訳(NMT)の弱点の一つとして,扱える語彙に限りがある点が知られている.NMTにおいては,語彙辞書に含まれていない単語は未知語トークンとして出力されるため,これが誤訳となる.従来法では,出力文に含まれた未知語トークンが対応する原言語の単語を推定しその訳語に置き換えることによって,NMTにおいて出力可能となる語彙の規模を拡大した.しかし,この方式は,単語単位での語彙規模の拡大にとどまる点が弱点であった.本論文においては,ニューラル翻訳において,大規模フレーズ語彙に対応する方式を提案する.具体的には,訓練用対訳文においてフレーズ間の二言語対応の情報を収集し,二言語間で対応済みのフレーズ対訳対を同一のトークンに置き換えた後,NMTモデルの訓練を行う.翻訳時には,NMTモデルの語彙集合中の語彙部分に対しては,NMTモデルによる訳文生成がなされ,一方,その他のフレーズまたは単語語彙部分に対しては,SMTモデルによる翻訳がなされる.日中,中日,日英,英日の各方向の翻訳において評価を行い,提案手法の有効性を検証した.