著者
田上 諒 越前 谷博 荒木 健治
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2018-NL-238, no.2, pp.1-6, 2018-12-04

本報告では,対訳辞書などの高品質な対訳知識を用いることなく,コンパラブルコーパスから対訳文を自動抽出する手法を提案する.提案手法では,単語分散表現を用いて翻訳行列と類似度計算を行うことで対訳文を抽出する.その際,類似度計算には Earth Mover's Distance を用いる.更に,提案手法では文長の違いを重みとして類似度に用いることで抽出精度の向上を図っている.ニュース記事のコンパラブルコーパスを用いた性能評価実験の結果,全記事の平均の F 値はベースラインで 0.13, EMD のみのシステムと提案手法にける文長を考慮しない場合では共に 0.42,文長を考慮した場合は 0.49 となった.これらの結果から,文長を考慮した提案手法の有効性が確認された.
著者
田上 諒 木村 輔 宮森 恒
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.10, no.3, pp.45-57, 2017-10-05

近年,ユーザからの多様な情報要求を満たす技術として,質問応答などの自動解答技術が注目されている.しかし,それらの技術は,大学入試をはじめとする現実に即した多様で複雑な質問に対して,現状では十分に対応できているとはいい難い.たとえば,大学入試などにおける文書中の空欄部分の単語を解答するような穴埋め型問題に対して,従来手法では,主に語順を考慮しない検索ベースのファクトイド型解答技術が用いられているため,十分な正答率を得られていない.本稿では,大学入試二次試験の世界史穴埋め型問題を対象とし,語順を考慮した自動解答手法を提案する.具体的には,問題文解析時に穴埋め部分の周辺単語から解答カテゴリを推定し,解答候補抽出に利用するとともに,解答候補評価時に,カテゴリとの一致性や周辺単語の既出状況などを用いた指標を導入することで解答候補を評価する.特に,解答カテゴリを推定する際には,語順を考慮した分散表現による単語予測モデルを導入する.実験では,まず,単語予測モデルの精度を比較する.また,ベースライン手法と提案手法を比較し,提案手法を解答処理に取り入れることで,正答率にどのような変化があるかを明らかにする.Recently, automatic answering technologies such as question answering have attracted attention as a technology to satisfy various information requests from users. However, it is difficult to say that these technologies can adequately respond to the diverse and complicated questions in realistic situations including university entrance examinations. For example, conventional methods can not provide correct answers sufficiently for the slot filling questions in the university entrance examinations, because retrieval-based factoid-type answering technologies are mainly used, which do not consider word order. In this paper, we propose an automatic answering method considering word order for the slot filling questions in the university entrance examination world history problems. In particular, when in analyzing the question sentence, the answer category is estimated from the surrounding words of the filling slot and used for extracting the answer candidates, and these candidates are evaluated by introducing the indicator using the consistency with the category, and the occurrence situation of the surrounding words. Especially, we introduce a word prediction model by distributed expression considering word order in estimating the answer category. In the experiment, we first compare the accuracy of the word prediction models. In addition, we compare the proposed method with the baseline method and clarify what kind of change is observed in the correct answer rate by incorporating proposed method.