著者
川本 真一 足立 吉広 大谷 大和 四倉 達夫 森島 繁生 中村 哲
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.51, no.2, pp.250-264, 2010-02-15
被引用文献数
2

視聴者の顔をCGで再現し,CGキャラクタとして映画に登場させるFuture Cast System(FCS)を改良し,視聴者から収録した少量の音声サンプルを用いて,視聴者に似た台詞音声を生成するため複数手法を統合し,生成された台詞音声をシーンに合わせて同期再生することで,視聴者の声の特徴をキャラクタに反映させるシステムを提案する.話者データベースから視聴者と声が似た話者を選択する手法(類似話者選択技術)と,複数話者音声を混合することで視聴者の声に似た音声を生成する手法(音声モーフィング技術)を組み合わせたシステムを構築し,複数処理を並列化することで,上映準備時間の要求条件を満たした.実環境を想定してBGM/SEを重畳した音声によって,従来手法である類似話者選択技術より得られる音声と,提案法で導入した音声モーフィング技術より得られる音声を主観評価実験により評価した結果,Preference Scoreで56.5%のモーフィング音声が目標話者の音声に似ていると判断され,音声モーフィングを組み合わせることでシステムが出力する台詞音声の話者類似性を改善できることを示した.In this paper, we propose an improved Future Cast System (FCS) that enables anyone to be a movie star while retaining their individuality in terms of how they look and how they sound. The proposed system produces voices that are significantly matched to their targets by integrating the results of multiple methods: similar speaker selection and voice morphing. After assigning one CG character to the audience, the system produces voices in synchronization with the CG character's movement. We constructed the speech synchronization system using a voice actor database with 60 different kinds of voices. Our system achieved higher voice similarity than conventional systems; the preference score of our system was 56.5% over other conventional systems.
著者
足立 吉広 前島 謙宣 四倉 達夫 森島 繁生
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. HCS, ヒューマンコミュニケーション基礎 (ISSN:09135685)
巻号頁・発行日
vol.102, no.734, pp.1-6, 2003-03-11

音声への感情付加や発話強調、方言の付加等を目的として、任意の自然音声もしくは合成音声に対して声質を変換する手法を提案する。従来から、音声の韻律情報を制御し、イントネーションを制御する研究が行われてきたが、波形レベルでの変形を行っていることから、再現された音声の自然性の劣化が著しかった。そこで本研究では、声質変換した音声の自然性の劣化を抑えるためにSTRAIGHTの考え方を導入し、セグメンテーションした音節区間毎に、継続長、ピッチ、パワーを制御する方法を新たに付加することで、発話速度とイントネーションを変換するシステムを構築した。これにより喋り方の手本となる参照音声の分析結果から、発話速度、ピッチ推移、パワー推移をセグメントごとに自動抽出して、サンプル音声にこの韻律情報をそのままコピーし、声質変換することが可能となった。