著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
四倉 達夫 川本 真一 松田 繁樹 中村 哲
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.49, no.12, pp.3847-3858, 2008-12-15

声優経験のない参加者が,プロの声優のアフレコした発話アニメーションに近いリップシンク精度で,デジタルアニメキャラクタの発話と同期したアニメーションを体験できる,インタラクティブ発話合成システム<i>iFACe</i>を提案する.iFACeはリップシンクアニメーションを素早く生成するため,参加者から収録した台詞音声のタイミングに合わせてCGキャラクタ発話アニメーションを生成する,プレスコ方式を用いている.本システムは,参加者が選択した台詞情報と台詞に対応した音声を入力とし,雑音環境下でも推定精度の高い音素アラインメントを行い音素と音素継続長を求める.次にさまざまなスタイルのカートゥーンキャラクタにあうキーフレームの作成を行う.出力したキーフレームから,ブレンドシェープアプローチによるGPUを使ったリアルタイム発話アニメーションと音声を同期し出力を行う.本システムは日本科学未来館に5日間のデモンストレーションを行い,主観評価実験から,74%の回答者が,ゲームとして声優体験システムで遊んでみたいと示し,エンタテインメントシステムとしての有効なコンテンツであることが示された.In this paper, we propose a novel interactive lip-sync animation system for entertainment that works with players' voices and transcriptions as input and provides following: Robust speech recognition for a wide range of consumers in noise environments; smoothing lip-sync animation for cartoon characters; and blend-shaped based technique common in CG production real-time lip-sync animation on graphics hardware. We demonstrated and evaluated our system at National Museum of Emerging Science and Innovation (Miraikan) for five days. The evaluated results showed that our system was effective contents for entertainment use.
著者
川本 真一 足立 吉広 大谷 大和 四倉 達夫 森島 繁生 中村 哲
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.51, no.2, pp.250-264, 2010-02-15
被引用文献数
2

視聴者の顔をCGで再現し,CGキャラクタとして映画に登場させるFuture Cast System(FCS)を改良し,視聴者から収録した少量の音声サンプルを用いて,視聴者に似た台詞音声を生成するため複数手法を統合し,生成された台詞音声をシーンに合わせて同期再生することで,視聴者の声の特徴をキャラクタに反映させるシステムを提案する.話者データベースから視聴者と声が似た話者を選択する手法(類似話者選択技術)と,複数話者音声を混合することで視聴者の声に似た音声を生成する手法(音声モーフィング技術)を組み合わせたシステムを構築し,複数処理を並列化することで,上映準備時間の要求条件を満たした.実環境を想定してBGM/SEを重畳した音声によって,従来手法である類似話者選択技術より得られる音声と,提案法で導入した音声モーフィング技術より得られる音声を主観評価実験により評価した結果,Preference Scoreで56.5%のモーフィング音声が目標話者の音声に似ていると判断され,音声モーフィングを組み合わせることでシステムが出力する台詞音声の話者類似性を改善できることを示した.In this paper, we propose an improved Future Cast System (FCS) that enables anyone to be a movie star while retaining their individuality in terms of how they look and how they sound. The proposed system produces voices that are significantly matched to their targets by integrating the results of multiple methods: similar speaker selection and voice morphing. After assigning one CG character to the audience, the system produces voices in synchronization with the CG character's movement. We constructed the speech synchronization system using a voice actor database with 60 different kinds of voices. Our system achieved higher voice similarity than conventional systems; the preference score of our system was 56.5% over other conventional systems.
著者
緒方 信 四倉 達夫 森島 繁生
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HIP, ヒューマン情報処理 (ISSN:09135685)
巻号頁・発行日
vol.99, no.582, pp.53-58, 2000-01-21
被引用文献数
4

感情音声が合成可能となれば、人間と機会とのノンバーバルなコミュニケーションが実現できるのみならず、人間同士の対話も円滑化する新しいコミュニケーションシステムが実現可能となる。しかし自然音声に感情を付加する為には、原音声のクオリティ、発話内容、話者の情報を保ちつつ、韻律情報を制御しなくてはならない。本稿では、音声系列中の各母音を切り出してピッチ制御を行い、文節単位でイントネーションを変化させ、さらに発話速度や音の強弱の制御によって、感情表現付加が可能なシステムを開発した。本手法により無感情音声から原音声のクオリティを保ったまま合成感情音声の作成が可能となった。
著者
足立 吉広 前島 謙宣 四倉 達夫 森島 繁生
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎 (ISSN:09135685)
巻号頁・発行日
vol.102, no.734, pp.1-6, 2003-03-11

音声への感情付加や発話強調、方言の付加等を目的として、任意の自然音声もしくは合成音声に対して声質を変換する手法を提案する。従来から、音声の韻律情報を制御し、イントネーションを制御する研究が行われてきたが、波形レベルでの変形を行っていることから、再現された音声の自然性の劣化が著しかった。そこで本研究では、声質変換した音声の自然性の劣化を抑えるためにSTRAIGHTの考え方を導入し、セグメンテーションした音節区間毎に、継続長、ピッチ、パワーを制御する方法を新たに付加することで、発話速度とイントネーションを変換するシステムを構築した。これにより喋り方の手本となる参照音声の分析結果から、発話速度、ピッチ推移、パワー推移をセグメントごとに自動抽出して、サンプル音声にこの韻律情報をそのままコピーし、声質変換することが可能となった。
著者
内田 英子 四倉 達夫 森島 繁生 山田 寛 大谷 淳 赤松 茂
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HIP, ヒューマン情報処理 (ISSN:09135685)
巻号頁・発行日
vol.99, no.722, pp.1-6, 2000-03-21
被引用文献数
9

顔面表情に焦点をあて、意図的なコントロールを受けたものと、なんらかの情動喚起に伴い自発的に現れるものとの違い、特に動的な変化の違いを実験的に検討した。被験者の顔面表情の変化を次の2条件下で高速度カメラにより撮影した。1つが意図的表出(動作教示)条件、もう一つが自発的表出条件である。意図的表出条件では、顔面動作教示に従って被験者に6つの基本表情を演じさせた。一方、自発的表出条件では、情動喚起映像(喜び、驚き、怒り、悲しみ、嫌悪、恐れ)を提示し、被験者に自然な表情を自発させた。高速度カメラで撮影した顔面表情の動的変化(特徴点の変位)を、画像解析ツールを用いて測定した。
著者
森島 繁生 八木 康史 中村 哲 伊勢 史郎 向川 康博 槇原 靖 間下 以大 近藤 一晃 榎本 成悟 川本 真一 四倉 達夫 池田 雄介 前島 謙宣 久保 尋之
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会誌 (ISSN:09135693)
巻号頁・発行日
vol.94, no.3, pp.250-268, 2011-03-01

映像コンテンツの全く新しい実現形態として,観客自身が映画等の登場人物となり,時には友人や家族と一緒にこの作品を鑑賞することによって,自身がストーリーへ深く没入し,かつてない感動を覚えたり,時にはヒロイズムに浸ることを実現可能とする技術「ダイブイントゥザムービー」について本稿で解説する.この実現には,観客に全く負担をかけることなく本人そっくりの個性を有する登場人物を自動生成する技術と,自ら映像中のストーリーに参加しているという感覚を満足するためのキャラクタ合成のクオリティ,映像シーンの環境に没入していると錯覚させる高品質な映像・音響再現技術及びその収録技術が,観客の感動の強さを決定する重要な要素となる.2005年の愛・地球博にて実証実験を行った「フユーチャーキャスト」に端を発するこの技術は,ハードウェアの進歩と2007年にスタートした文部科学省の支援による科学技術振興調整費プロジェクトの実施によって,格段の進歩を遂げた.その結果,様々なバリエーションの観客の個性を全自動・短時間でストレスなくモデル化することが可能となり,また作品の中でリアルタイム合成されるキャラクタの顔と全身,声に各入の個性を忠実に反映することが可能となった.また,同時に役者が感じた音場・視点で1人称的にコンテンツへの没入感を体感することを可能にするシステムを同時に実現した.
著者
山田 寛 内田 英子 四倉 達夫 森島 繁生 鉄谷 信二 赤松 茂
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎 (ISSN:09135685)
巻号頁・発行日
vol.100, no.712, pp.27-34, 2001-03-14
被引用文献数
5

本研究では、人間が自然な表情を自発した時と普遍的で典型的と言われている表情を演じる時の顔の動きを高速度カメラで撮影し、顔の特徴点の変位の測定に基づいて顔の動きの定量的な特性を分析した。自然な表情は、Gross & Levens (1995)が標準化した情動喚起刺激を被験者に提示することによって自発させた。典型的な表情の演技は、FACSの定義に基づいた。自発表出条件、演技表出条件ともに顔の各部位の動き出しの差は微細であり高速度カメラを用いたことの有効性が示された。また情動ごとおよび表出条件ごとに顔の各部の動きの量や速さに特徴的な違いが認められたが、動きの変化そのものの様相には興味深い共通性が認められた。
著者
伊東 大介 四倉 達夫 森島 繁生
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎 (ISSN:09135685)
巻号頁・発行日
vol.99, no.122, pp.17-24, 1999-06-17
被引用文献数
1

近年、人間の顔表情をCG (Computer Graphics)にて表現することは映画の特殊効果や、ヒューマンインタフェースのためのエージェントの表現として-般的になっており、そのクオリティは実写に近いレベルまで達している。しかしながらそれらの構築に対しアニメータ等の膨大な労力と資金が必要であり、製作期間も長期間にわたるのが現状である。そこで本論文ではリアルな顔画像生成のため、皮膚組織や表情筋を持つ顔面筋肉モデルを用いて表情表出を行うシステムを構築し、各表情筋の変化に対応した筋電を測定する装置を用いて各々の筋電を測定し、各筋肉の収縮をモデル化する。測定データから顔面筋肉モデルの表情筋をコントロールして、リアルな口形状のモデル化を実現するシステムも可能となった。