著者
大塚 和弘 竹前 嘉修 大和 淳司 村瀬 洋
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.7, pp.2317-2334, 2006-07-15

複数人物による対面会話を対象とし,会話参加者の視線パターン,頭部方向,および,発話の有無に基づき会話の構造の推論を行うための確率的枠組みを 提案する.本研究では,まず,会話の構造として,話し手,受け手,傍参与者と 呼ばれる参与役割と会話参加者との組合せに着目する.次に,会話中の各人物の 行動は,会話の構造によって規定されるという仮説を立て,マルコフ 切替えモデルと呼ばれる一種の動的ベイジアンネットを用いた会話 モデルを提案する.このモデルは,会話レジームと呼ばれる会話の構造に対応 した上位プロセスの状態が,マルコフ過程に従い時間変化しつつ,その会話 レジームの状態に依存して,視線パターン,および,発話が確率的に生成され,さらに,各人の視線方向に依存して頭部方向が観測されるという 階層的な構造を持つ.このモデルにおいて,会話レジームは,会話中に頻出 する視線パターンの特徴的な構造に基づいて仮説的に設定される.また,ギブスサンプリングと呼ばれる一種のマルコフ連鎖モンテカルロ法を用いて,観測された頭部方向と発話の有無の時系列データより,会話レジーム,視線パターン,および,モデルパラメータのベイズ推定を行う方法を提案する.最後に,4人会話を対象とした実験により,視線方向と会話レジームの推定精度を評価し,提案した枠組みの有効性を確認する.
著者
大塚 和弘 竹前 嘉修 大和 淳司 村瀬 洋
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.7, pp.2317-2334, 2006-07-15
参考文献数
40
被引用文献数
9

複数人物による対面会話を対象とし,会話参加者の視線パターン,頭部方向,および,発話の有無に基づき会話の構造の推論を行うための確率的枠組みを 提案する.本研究では,まず,会話の構造として,話し手,受け手,傍参与者と 呼ばれる参与役割と会話参加者との組合せに着目する.次に,会話中の各人物の 行動は,会話の構造によって規定されるという仮説を立て,マルコフ 切替えモデルと呼ばれる一種の動的ベイジアンネットを用いた会話 モデルを提案する.このモデルは,会話レジームと呼ばれる会話の構造に対応 した上位プロセスの状態が,マルコフ過程に従い時間変化しつつ,その会話 レジームの状態に依存して,視線パターン,および,発話が確率的に生成され,さらに,各人の視線方向に依存して頭部方向が観測されるという 階層的な構造を持つ.このモデルにおいて,会話レジームは,会話中に頻出 する視線パターンの特徴的な構造に基づいて仮説的に設定される.また,ギブスサンプリングと呼ばれる一種のマルコフ連鎖モンテカルロ法を用いて,観測された頭部方向と発話の有無の時系列データより,会話レジーム,視線パターン,および,モデルパラメータのベイズ推定を行う方法を提案する.最後に,4人会話を対象とした実験により,視線方向と会話レジームの推定精度を評価し,提案した枠組みの有効性を確認する.A novel probabilistic framework is proposed for inferring the structure of conversation in face-to-face multiparty communication, based on gaze patterns, head directions, and the presence/absence of utterances. First, as the structure of conversation, this study focuses on the combination of participants and their participation roles. Next, we hypothesize that the structure of conversation governs how people behave during conversation, and propose a conversation model based on the Markov-switching model, a kind of dynamic Bayesian network. In this model, the state of the high-level process, we call it the conversation regime, is assumed to correspond to the conversation structure and that its changes over time exhibit Markov properties. Also, the conversation regime controls the dynamics of utterances and gaze patterns, which stochastically yield measurable head directions. The conversation regimes are hypothetically configured based on typical structures exhibited by gaze patterns among the participants during conversations. Furthermore, a Markov chain Monte Carlo method called the Gibbs sampler is used to realize the Bayesian estimation of conversation regime, gaze pattern, and model parameters from the observed sequential data of head directions and utterances. Finally, experiments on four-person conversations confirm the effectiveness of the proposed framework in estimating gaze directions and conversation regimes.