著者
田中 陸斗 高木 友博
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会研究会資料 言語・音声理解と対話処理研究会 95回 (2022/09) (ISSN:09185682)
巻号頁・発行日
pp.47-52, 2022 (Released:2022-09-01)

深層学習を利用した対話システム構築において対話データの質と量は重要である.しかし,日本語の対話コーパスは大規模なものが公開されておらず,限られたデータしかないといった問題がある.また,コーパスを用いてend-to-endに学習したモデルはありきたりで短い応答をすることが多く,生成文の多様性が少ないといった問題もある.これらの問題を克服するために,本研究では非会話文を活用して対話データを増やすことで対話モデルの多様性の向上を試みる.ここで言う非会話文とは,web上の文章や小説の台詞などの対話の形式として整えられていない文のことであり,対話データと比較して収集が容易である.逆翻訳とサンプリング生成を用いて非会話文から対話データを増やし,不適切な対話を除去するためのフィルタを通すことでより質の高いデータを獲得する.増やしたデータを加えて対話モデルを学習させた結果,生成文の多様性の向上が見られた.