著者
佐藤 志貴 赤間 怜奈 大内 啓樹 鈴木 潤 乾 健太郎
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.29, no.1, pp.53-83, 2022 (Released:2022-03-15)
参考文献数
48

雑談対話応答生成システムの日々の改良が望ましい方向に効いているか継続的に評価するといった用途として,システムを低コストで評価できる自動評価の枠組みの確立が求められている.しかし,BLEU など,応答生成の自動評価に広く用いられている既存の指標は人間との相関が低いことが報告されている.これは,一つの対話履歴に対し適切な応答が複数存在するという対話の性質に起因する.この性質の影響を受けにくいシステムの評価方法の一つに対話応答選択が考えられる.対話応答選択は,対話履歴に対し適切な応答を応答候補から選ぶタスクである.このタスクではシステムの応答が候補内の発話に限られるため,前述した対話の性質の影響を回避した評価が可能である.一般に対話応答選択では,対話履歴に対する本来の応答(正例)に加え,誤り候補(負例)を無関係な対話データから無作為抽出し応答候補を構成する.しかし,この方法では,正例とかけ離れすぎていて応答として不適切と容易に判別できる発話や,応答として誤りとはいえない発話が負例として候補に混入し,評価の有効性が低下する可能性がある.本論文では,負例を厳選することで不適切な負例の混入を抑制した対話応答選択テストセットの構築方法を提案する.構築したテストセットを用いた対話応答選択によるシステム評価が,BLEU など既存の広く用いられている自動評価指標と比べ人手評価と強く相関することを報告する.