- 著者
-
川本 真一
足立 吉広
大谷 大和
四倉 達夫
森島 繁生
中村 哲
- 出版者
- 情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.51, no.2, pp.250-264, 2010-02-15
- 被引用文献数
-
2
視聴者の顔をCGで再現し,CGキャラクタとして映画に登場させるFuture Cast System(FCS)を改良し,視聴者から収録した少量の音声サンプルを用いて,視聴者に似た台詞音声を生成するため複数手法を統合し,生成された台詞音声をシーンに合わせて同期再生することで,視聴者の声の特徴をキャラクタに反映させるシステムを提案する.話者データベースから視聴者と声が似た話者を選択する手法(類似話者選択技術)と,複数話者音声を混合することで視聴者の声に似た音声を生成する手法(音声モーフィング技術)を組み合わせたシステムを構築し,複数処理を並列化することで,上映準備時間の要求条件を満たした.実環境を想定してBGM/SEを重畳した音声によって,従来手法である類似話者選択技術より得られる音声と,提案法で導入した音声モーフィング技術より得られる音声を主観評価実験により評価した結果,Preference Scoreで56.5%のモーフィング音声が目標話者の音声に似ていると判断され,音声モーフィングを組み合わせることでシステムが出力する台詞音声の話者類似性を改善できることを示した.In this paper, we propose an improved Future Cast System (FCS) that enables anyone to be a movie star while retaining their individuality in terms of how they look and how they sound. The proposed system produces voices that are significantly matched to their targets by integrating the results of multiple methods: similar speaker selection and voice morphing. After assigning one CG character to the audience, the system produces voices in synchronization with the CG character's movement. We constructed the speech synchronization system using a voice actor database with 60 different kinds of voices. Our system achieved higher voice similarity than conventional systems; the preference score of our system was 56.5% over other conventional systems.