著者
飯塚 海斗 大塚 和弘
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.38, no.3, pp.J-M91_1-17, 2023-05-01 (Released:2023-05-01)
参考文献数
37

A novel machine learning framework is proposed to automatically recognize the synergetic functions of the Aizuchi and the head movements of listeners in conversations. The listeners’ head movements, such as nodding, and Aizuchi, i.e., listeners’ short back-channel utterances, play a variety of functions, such as expressing the sign of listening, agreement, and emotions. This paper presents a functional Aizuchi corpus and analyzes it with the functional head-movement corpus that the authors have previously created. The analysis reveals the synergetic relationship between Aizuchi and head movements including reinforcement, multiplexing, and complementary. Then, this paper defines a functional category system called synergetic functions, which classifies reinforcement and multiplexing as product functions and complementary as sum functions. Next, several models using convolutional neural networks (CNNs) are designed to recognize such synergetic functions from the time series of the prosodic features and the head pose of the listeners. More specifically, we compare some different architectures, which employ early/late feature fusions and single/two-stage decision-making. The experimental results shows the proposed models achieved the maximum F1-score of 0.71 for the product function of Aizuchi’s continuer and head movement back-channel and that of 0.88 for a sum function called back-channel acknowledgment that was complementarily expressed by head movements and Aizuchi. These results confirms the potential of the proposed framework.
著者
大塚 和弘 竹前 嘉修 大和 淳司 村瀬 洋
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.7, pp.2317-2334, 2006-07-15

複数人物による対面会話を対象とし,会話参加者の視線パターン,頭部方向,および,発話の有無に基づき会話の構造の推論を行うための確率的枠組みを 提案する.本研究では,まず,会話の構造として,話し手,受け手,傍参与者と 呼ばれる参与役割と会話参加者との組合せに着目する.次に,会話中の各人物の 行動は,会話の構造によって規定されるという仮説を立て,マルコフ 切替えモデルと呼ばれる一種の動的ベイジアンネットを用いた会話 モデルを提案する.このモデルは,会話レジームと呼ばれる会話の構造に対応 した上位プロセスの状態が,マルコフ過程に従い時間変化しつつ,その会話 レジームの状態に依存して,視線パターン,および,発話が確率的に生成され,さらに,各人の視線方向に依存して頭部方向が観測されるという 階層的な構造を持つ.このモデルにおいて,会話レジームは,会話中に頻出 する視線パターンの特徴的な構造に基づいて仮説的に設定される.また,ギブスサンプリングと呼ばれる一種のマルコフ連鎖モンテカルロ法を用いて,観測された頭部方向と発話の有無の時系列データより,会話レジーム,視線パターン,および,モデルパラメータのベイズ推定を行う方法を提案する.最後に,4人会話を対象とした実験により,視線方向と会話レジームの推定精度を評価し,提案した枠組みの有効性を確認する.
著者
森 駿志 大塚 和弘
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 A (ISSN:09135707)
巻号頁・発行日
vol.J105-A, no.10, pp.111-124, 2022-10-01

人と人との対話において対話者が表出する頭部運動には様々な機能があることが知られており,その認識のため畳み込みニューラルネットワーク(CNN) を用いた方法が提案されている.本論文では,対話者個人の頭部運動機能の概念を,頭部運動を介した聞き手・話し手間の相互作用機能へと拡張し,頭部運動機能を認識するCNNを転移させることで相互作用機能を認識するモデルを構築する戦略を提案する.この転移戦略の一つとして,複数の頭部運動機能について各々事前に学習されたCNNを再利用し,これらCNNの中間出力を特徴ベクトルとして抽出し,別の識別器により相互作用機能の認識を行うという戦略が含まれる.話し手・聞き手各々の機能認識CNNの出力について論理積をとる方策を基準として,提案した転移戦略を適用したモデルによる性能向上を検証した結果,話し手のリズム取りに対する聞き手の相槌という相互作用において,F値にて最高8.0ポイントの性能向上を確認し,また,話し手のリズム取りに対する聞き手の正の感情表出という相互作用では,最高13.9ポイントの性能向上を確認した.このように提案した転移戦略の潜在的可能性が確認された.
著者
大土 隼平 石井 陽子 中谷 桃子 大塚 和弘
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J105-D, no.9, pp.504-517, 2022-09-01

複数人対話におけるファシリテータによる対話者の状態把握を支援するため,頭部運動の機能に関する特徴量を用いた対話者の主観的印象の予測モデルを提案する.女性4名,17グループの対話を対象とし,雰囲気の良さ,楽しさ,やる気,集中度について,2分単位に自己報告された9段階のスコアを予測の対象とする.まず,対話者の頭部姿勢角及び発話の有無の時系列を入力とする畳み込みニューラルネットワークを用いて,頭部運動機能10種を検出する.次に頭部運動機能特徴として,検出された頭部運動機能から各機能の出現率や構成比等を2分単位の区間ごとに算出する.また,頭部運動の活発さを表す特徴も併せて抽出し,ランダムフォレスト回帰モデルを用いて内観スコアの予測を行う.実験の結果,全グループに対するモデルでは,印象4項目中3項目にて弱い相関(≥ 0.3)が確認でき,また,グループごとのモデルでは,約32%のグループにて中程度以上の相関(≥ 0.5)が得られるなど印象の予測可能性が示唆された.更に予測モデルの説明可能性を示すため,SHAP分析を用いて予測に寄与した対話者の行動と印象との関連性について考察する.
著者
石井 亮 大塚 和弘 熊野 史朗 大和 淳司
出版者
一般社団法人 人工知能学会
巻号頁・発行日
pp.2L32in, 2015 (Released:2018-07-30)

複数人対話における話者交替のメカニズムを明らかにし,次話者と発話開始タイミングを予測可能なモデルの構築を目指している.本研究では,話者交替に重要となる発話末の話し手と聞き手の視線交差において,視線交差の開始時にどちらが先に視線を向けるかといったタイミング構造が次話者・発話開始タイミングとどのような関連性があるかを明らかにし,タイミング構造の情報を用いた予測モデルを構築した.
著者
石井 亮 大塚 和弘 熊野 史朗 大和 淳司
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.57, no.4, pp.1116-1127, 2016-04-15

複数人対話において,これまで着目されていなかった参加者の頭部運動と次話者との関連性を明らかにし,頭部運動の情報を用いて誰が次話者になるかを予測するモデルを提案する.まず,4者の対話のデータ収録を行い,発話情報,および頭部計測センサから取得される頭部位置,回転角からなる頭部運動情報を含む会話コーパスを構築した.コーパスデータを用いて,現話者の発話末の頭部運動と話者交替の関連性を分析した結果,話者継続時と交替時で,現話者の頭部運動が異なることが示された.また,非話者の発話末の頭部運動と次話者の関連性を分析した結果,話者継続時の非話者,話者交替時の非次話者と次話者の3者間で,頭部運動の特徴が異なることが示された.分析で差が見られた現話者,非話者の頭部運動情報を用いて,話者継続と話者交替のどちらが起こるか,さらに,話者交替時に非話者の中で誰が次話者になるかを2段階で予測する次話者予測モデルを構築した.その予測精度の評価の結果,現話者と非話者の頭部運動情報が話者継続/交替の予測に有用であることが示唆された.また,非話者の頭部運動情報が話者交替時の次話者の予測に有用であることが示唆された.
著者
大塚 和弘 竹前 嘉修 大和 淳司 村瀬 洋
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.7, pp.2317-2334, 2006-07-15
参考文献数
40
被引用文献数
9

複数人物による対面会話を対象とし,会話参加者の視線パターン,頭部方向,および,発話の有無に基づき会話の構造の推論を行うための確率的枠組みを 提案する.本研究では,まず,会話の構造として,話し手,受け手,傍参与者と 呼ばれる参与役割と会話参加者との組合せに着目する.次に,会話中の各人物の 行動は,会話の構造によって規定されるという仮説を立て,マルコフ 切替えモデルと呼ばれる一種の動的ベイジアンネットを用いた会話 モデルを提案する.このモデルは,会話レジームと呼ばれる会話の構造に対応 した上位プロセスの状態が,マルコフ過程に従い時間変化しつつ,その会話 レジームの状態に依存して,視線パターン,および,発話が確率的に生成され,さらに,各人の視線方向に依存して頭部方向が観測されるという 階層的な構造を持つ.このモデルにおいて,会話レジームは,会話中に頻出 する視線パターンの特徴的な構造に基づいて仮説的に設定される.また,ギブスサンプリングと呼ばれる一種のマルコフ連鎖モンテカルロ法を用いて,観測された頭部方向と発話の有無の時系列データより,会話レジーム,視線パターン,および,モデルパラメータのベイズ推定を行う方法を提案する.最後に,4人会話を対象とした実験により,視線方向と会話レジームの推定精度を評価し,提案した枠組みの有効性を確認する.A novel probabilistic framework is proposed for inferring the structure of conversation in face-to-face multiparty communication, based on gaze patterns, head directions, and the presence/absence of utterances. First, as the structure of conversation, this study focuses on the combination of participants and their participation roles. Next, we hypothesize that the structure of conversation governs how people behave during conversation, and propose a conversation model based on the Markov-switching model, a kind of dynamic Bayesian network. In this model, the state of the high-level process, we call it the conversation regime, is assumed to correspond to the conversation structure and that its changes over time exhibit Markov properties. Also, the conversation regime controls the dynamics of utterances and gaze patterns, which stochastically yield measurable head directions. The conversation regimes are hypothetically configured based on typical structures exhibited by gaze patterns among the participants during conversations. Furthermore, a Markov chain Monte Carlo method called the Gibbs sampler is used to realize the Bayesian estimation of conversation regime, gaze pattern, and model parameters from the observed sequential data of head directions and utterances. Finally, experiments on four-person conversations confirm the effectiveness of the proposed framework in estimating gaze directions and conversation regimes.
著者
大塚 和弘 堀越 力 鈴木 智
雑誌
全国大会講演論文集
巻号頁・発行日
vol.54, pp.409-410, 1997-03-12
被引用文献数
1

近年の計算機技術や気象学の発達に伴い, 2,3日先までの全国規模の気象予測の精度は向上している. 一方, 集中豪雨・豪雪, 雷雨などの局所的 (数km^2~数100km^2) で激しい降水現象は, 観測的にも物理的にも未解明な点が多く, 十分な予測が困難である. しかし, 現在, 防災や各種産業の効率, 経済性の向上のため, 1時間~3時間先までの空間・時間解像度の高い降水予測が重要な課題となっている. これまで, このような予測のために, 気象レーダ画像を用いた手法が提案されているが, 実用上その予測精度には問題があった。そこで, 本稿ではエコーパターンの局所的、大局的な動きの性質の違いに着目し, エコーの速度場の分割に基づく予測手法を提案し, 実験により予測精度の向上を確認したのでその旨を報告する.
著者
大塚 和弘
巻号頁・発行日
2007-03-23 (Released:2007-09-03)

名古屋大学博士学位論文 学位の種類(情報科学)(課程)学位授与年月日;平成19年3月23日