著者
中野 倫靖 後藤 真孝 梶田 秀司 松坂 要佐 中岡 慎一郎 横井 一仁
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.55, no.3, pp.1222-1235, 2014-03-15

本論文では,ユーザ歌唱における顔表情を真似てヒューマノイドロボットの顔動作を生成するVocaWatcherについて述べる.ここで,我々が以前開発したVocaListenerを用い,ユーザ歌唱の歌い方(音高と音量)を真似て歌声合成も行う.従来,歌唱ロボットに関する研究はあったが,手作業による動作制御が主で,その自然さに限界があった.それに対して本研究では,単一のビデオカメラで収録した人間の歌唱動画を画像解析し,口,目,首の動作を真似て制御することで,自然な歌唱動作を生成した.ここで口の制御には,VocaListenerから得られる歌詞のタイミング情報を用いて,歌声に同期した動作を生成できる.さらに,ロボットによるより自然な歌唱を実現するために,我々が以前開発したブレス音の検出技術とVocaListenerを組み合わせ,ブレス音を真似て合成できるように拡張した.In this paper, we describe VocaWatcher that is a facial-motion generator for a singing robot by imitating user's singing. It can synthesize singing voices by using our previous VocaListener to imitate pitch (F0) and dynamics (power) of user's singing. Although singing humanoid robots have been developed with synthesized singing voices, such robots do not appear to be natural because of limitations of manual control. To generate natural singing expressions, VocaWatcher imitates a human singer by analyzing a video clip of human singing recorded by a single video camera. VocaWatcher can control mouth, eye, and neck motions by imitating the corresponding human movements. To control the mouth motion, VocaWatcher uses lyrics with precise timing information provided by VocaListener. Moreover, we extended VocaListener by combining our previous method of breath sound detection to imitate breathing sounds that make the robot singing more realistic.
著者
松坂 要佐 東條 剛史 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.898-908, 2001-06-01
被引用文献数
56

グループ会話に参与できる対話ロボットを開発した.グループ会話とは, 会話の参加者同士が, 対等の関係で行う多人数会話である.人と機械が1対1で会話することを前提としていた従来の人・機械の対話システムと異なり, グループ会話においては、投げかけられた声が誰によって発せられ誰に向けられたものか, それぞれの会話参加者は誰に注目しているかなど, 会話の場に関する状況理解をするとともに, 自らも適切な場の形成に努める必要がある.本研究では, 画像処理, 音響処理などを併用することで状況理解を行うとともに, 身体表現によって会話状況への働きかけを行う機能を実現し, これらを音声認識と組み合わせることで, 複数の参加者を相手に会話できるロボットを作成した.
著者
松坂 要佐 緒方 淳 麻生 英樹 浅野 太
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎 (ISSN:09135685)
巻号頁・発行日
vol.106, no.219, pp.13-18, 2006-08-21
被引用文献数
6

多人数会話の工学的応用を行った研究についてのサーベイを行った.多人数会話とは3人以上の参加者によって行われる会話形態のことである.公共の場での大小の会議や各家庭でのテーブルトークなど,我々の日常の社会生活のうち,時間・重要性の両面において多くを占める部分がこの形態の会話によって行われている.本稿ではこの多人数会話を対象として作られた工学的なシステムについていくつか取り上げて議論するとともに,会話の構成員,利用メディアの種別によって分類することを試みた.既存の研究の分類・共通する問題についての議論を行うとともに,現在我々の開発している会議アーカイブシステムVTMOfficeについて紹介した.
著者
浅野 太 麻生 英樹 河本 満 緒方 淳 松坂 要佐
出版者
独立行政法人産業技術総合研究所
雑誌
基盤研究(A)
巻号頁・発行日
2006

本研究では、複数のマイクロホンと全方位カメラとからなる入力装置により会議内容を収録したマルチメディアデータ(映像・音声)から、いつ、だれが、どんな発言をしたかという情報を、音源定位・音源分離や音声認識技術などを用いて自動推定して、会議の構造を視覚化するシステムを開発した。このシステムにより、キーワードを含む場面を簡単に検索・再生し、会議の概要を短時間で把握できるようになる。
著者
久保田 千太郎 松坂 要佐 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.99, no.708, pp.49-56, 2000-03-17
被引用文献数
2

ロバストかつ高精度・高速な顔画像処理システムを実現し, これを対話ロボットに組み込んでグループ会話を実現した.グループ会話とは, 複数の話者を同時に相手にする対話形態である.グループ会話に円滑に参与するためには, 発話者が誰であるか, および発話が誰に向けられているか等の, 対話の状況を把握する必要がある.この目的には, 顔向きや個人の認識を行なう画像処理が重要な役割を演じる.この際, 画像処理システムには, 環境変化にロバストであることや, 高精度でかつ実時間処理に適していることが必要とされる.本研究では, 前者には顔領域を抽出する手掛かりとなる肌色尤度モデルを逐次更新することで, また後者にはパターン認識に適した高精度情報圧縮を実現する独立成分分析を適用することで達成した.この画像処理システムにより, グループ会話に必要な状況把握が可能となり, 自然なグループ会話の実現に貢献することを確認した.