著者
平井 翔太 村岡 雅康 岡崎 直観
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第37回 (2023) (ISSN:27587347)
巻号頁・発行日
pp.4Xin138, 2023 (Released:2023-07-10)

人間が言語機能を獲得する上で、視覚情報は重要な役割を担っている。様々な自然言語処理タスクで成功を収めている大規模言語モデルの多くは、テキストデータのみを用いて学習される。Vokenizationの研究は、自然言語処理タスクにおける大規模言語モデルの性能を向上させるために、視覚情報を大規模言語モデル学習に取り入れるという新しい方法を確立した。しかし、Vokenizationでは、文中の異なるトークンに同じ画像を割り当ててしまうため、大規模言語モデルが効果的な単語埋め込み表現を学習することができない。本研究では、大規模言語モデルの性能をさらに向上させるために、大規模言語モデル学習においてトークンに割り当てられる画像をtop-kまたはtop-pサンプリングを利用して多様化する方法を提案する。実験の結果、言語理解ベンチマークであるGLUEにおいて、本手法の有効性が示され、Vokenizationのtop-1検索を用いたベースライン手法を上回った。