著者
石垣 達也 トピチ ゴラン 濵園 侑美 能地 宏 小林 一郎 宮尾 祐介 高村 大也
雑誌
研究報告自然言語処理(NL) (ISSN:21888779)
巻号頁・発行日
vol.2021-NL-250, no.8, pp.1-11, 2021-09-21

本稿では,新たな言語生成タスクとして,レーシングゲーム実況テキスト生成を提案する.このタスクでは,視覚情報としてレーシングゲームの録画映像,言語データとして実況発話,構造化データとして速度,ハンドル角度といった数値データを入力として扱い,視聴者が映像を視聴しながら,レースをより理解し,楽しむための実況テキストを生成する.既存の言語生成研究においては,データセットの欠如が一因となり映像,言語,構造化データの複数モダリティを同時に考慮する言語生成研究を行うことは困難であった.また,言語生成の中でも,特に実況生成においては「どのタイミングで発話するか」「何を発話するか」を最低限決定する必要があるが,例えば野球を対象とした既存研究においてはイニング間に実況を行うなど,発話タイミングがあらかじめ与えられる設定が扱われ,後者にのみ着目されてきた.本研究ではまず,映像,構造化データとそれらに対応する実況テキストが対になった大規模データセットを作成し,レース実況の特徴について分析する.分析より,実況テキストはその言語的な特徴が,時間および実況者の視点の影響を受け,変化することが分かった.さらに,実況生成タスクをタイミング同定と発話生成の 2 つのサブタスクに分割し,これらについてベースライン手法を提案する.実験より,構造化データの活用は有益である一方,視覚情報については最先端の画像エンコーダを用いたとしても,本タスクにおいて効果が限定的であり,実況生成タスクが挑戦的な課題であることが分かった.マルチモーダルな言語生成タスクのためのデータセットとして,本研究で作成したデータセットは公開する.
著者
能地 宏 持橋 大地 石塚 満
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2012-NL-208, no.4, pp.1-11, 2012-08-26

文書の潜在トピックを捉え,トピックに応じた適切なnグラムを用いて予測を行うBayes的なnグラム言語モデルを提案する.文章には,単語の出現が文書のトピックに依存して決まる内容語と,文法的な関係のみで決まる機能語が存在する.我々はこれらの単語の出現が,文脈によっておおまかに決まることに着目し,適切な箇所でのみトピックを考慮した予測を行うモデルとして,2種類のモデルを提案し,比較を行う.トピック別のnグラムモデルを,通常のGibbsサンプリングで学習したのではすぐに局所解に陥ってしまうことを実験的に示し,それを回避するための新しいBlocked Gibbsサンプリングを提案する.提案法は,パープレキシティの比較において,Unigram Rescalingと同等以上の性能を示しながら,予測時間の大幅な改善を行うことを確認した.