著者
鈴木 莉子 吉川 将司 谷中 瞳 峯島 宏次 戸次 大介
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.2L1J903, 2019 (Released:2019-06-01)

近年、モダリティの異なるデータ間での推論によって新たな知識を獲得するマルチモーダル推論に関する研究が盛んになっている。画像情報を自然言語の意味表現と接続可能な形式で表すことができれば、自然言語テキスト間の推論と同様の高度な推論を、テキストデータと画像情報の間で行うことができる。本論文では、画像情報とキャプションを一階述語論理 (FOL)のモデルと論理式を用いて表現することで、画像から数量表現や否定を含む複雑な文を推論するシステムを提案する。画像情報とキャプションにより拡張されたFOLモデルを用いることで、意味的に複雑な文に加え、物体の状態を表す関係を含む文も推論できるようになった。
著者
鈴木 莉子 小西 幹人 池田 順哉 林 大地 深井 颯 菅原 優 町井 湧介 山浦 佑介
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回全国大会(2020)
巻号頁・発行日
pp.3Q5GS901, 2020 (Released:2020-06-19)

ドキュメントに含まれる画像はテキストの内容理解を助ける役割を持つが、画像とテキストの間に整合性が無い場合は、読み手の理解を妨げる恐れがある。ドキュメント作成時の人的ミスやデータの改ざん等により、画像に対してテキストの意味が部分的に変わってしまう場合は、作成者が矛盾点に気付きにくいため、意図せずドキュメントの品質を落としてしまう可能性もある。本研究では、マルチモーダル深層学習を用いて、画像とテキストの整合性判定を行い、画像の物体領域とテキストの単語の関連性を学習するCross Attentionにより、画像とテキストの矛盾点を可視化するモデルを構築する。画像とキャプションが対になったデータセットを元に、キャプションの意味を部分的に変更したデータセットを作成し、提案モデルの有効性を検証すると共に、Cross Attentionにより可視化される画像とテキストの対応関係について考察する。