著者
大谷 大和 松永 悟之 平井 啓之
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.39, pp.1-6, 2019-06-15

本稿では深層学習を用いた波形接続型感情音声合成のための感情制御法について述べる.従来の波形接続型感情音声合成では,1) 素片単位での混合が困難であるため,中間的な感情表現が乏しい,2) 入力された感情強度に従い素片の感情の種類を切り替えるため,感情による声質の変化が不連続になるといった問題があった.これらの問題を解決するために,提案手法では深層ニューラルネットワーク (DNN) を用いて,平静音声のスペクトル特徴量と感情強度から感情音声と平静音声の差分スペクトルを予測し,これを平静の素片に畳み込むことで所望の感情強度の感情素片を生成する.また,入力感情強度に応した差分スペクトル特徴量を予測可能にするため,データ拡張により感情強度に対応した差分スペクトル特徴量を生成し,これらを学習に用いることで所望の制御則を DNN に埋め込む.実験的評価では,従来手法と比較して滑らかな感情制御ができていることを確認した.
著者
大谷 大和 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.91, no.4, pp.1082-1091, 2008-04-01
被引用文献数
3

声質変換において,スペクトル特徴量系列の統計的モデル化技術の発展により,その変換性能は大幅に改善された.しかし,声質変換で用いられる音源モデルでは実際の音源を正確に表現できていないため,その変換音声の自然性は十分なものとはいいがたい.これを改善するために,スペクトル特徴量系列と同様に音源特徴量系列に対しても統計的なモデリングを行う必要がある.本論文では混合正規分布モデル(Gaussian Mixture Model: GMM)に基づく声質変換法の枠組みに対してSTRAIGHT混合励振源を導入する.提案法では,スペクトル特徴量系列及び音源特徴量系列に対して最ゆう推定(Maximum likelihood estimation: MLE)に基づく特徴量変換が行われる.客観評価実験並びに主観評価実験の結果より,提案法により音質,話者性変換精度が大きく改善されることを示す.
著者
松永 悟行 大谷 大和 平原 達也
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J102-D, no.10, pp.721-729, 2019-10-01

Deep Neural Network(DNN)を用いた音声合成の基本的な構成は,文章を構成する情報を数値で表現した言語特徴量を入力して音声を合成するための特徴量を出力するものである.これらの入出力特徴量は,DNNに適するように学習データを用いて正規化や標準化することが多い.しかし,自由文章から音声を合成する場合には,この正規化の範囲や標準化の分布から外れる値が言語特徴量に含まれる可能性がある.そして,この外れ値はDNNの外挿能力が十分でないために適切に補間されないまま伝搬して出力特徴量に誤差を生じさせる.本論文では,言語特徴量の外れ値の問題を解決するために,一発話内の閉じた条件における正規化手法を提案し,日本語の音声合成で重要な要素の一つである基本周波数について,予測誤差と合成音声の聴取による評価を行った.その結果,提案した正規化手法では,従来の正規化手法で発生していた外れ値は発生しないこと,正規化した値が基本周波数に適したものになったことにより少量の学習データでも予測誤差は従来よりも小さくなり,安定した予測が可能になることがわかった.
著者
川本 真一 足立 吉広 大谷 大和 四倉 達夫 森島 繁生 中村 哲
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.51, no.2, pp.250-264, 2010-02-15
被引用文献数
2

視聴者の顔をCGで再現し,CGキャラクタとして映画に登場させるFuture Cast System(FCS)を改良し,視聴者から収録した少量の音声サンプルを用いて,視聴者に似た台詞音声を生成するため複数手法を統合し,生成された台詞音声をシーンに合わせて同期再生することで,視聴者の声の特徴をキャラクタに反映させるシステムを提案する.話者データベースから視聴者と声が似た話者を選択する手法(類似話者選択技術)と,複数話者音声を混合することで視聴者の声に似た音声を生成する手法(音声モーフィング技術)を組み合わせたシステムを構築し,複数処理を並列化することで,上映準備時間の要求条件を満たした.実環境を想定してBGM/SEを重畳した音声によって,従来手法である類似話者選択技術より得られる音声と,提案法で導入した音声モーフィング技術より得られる音声を主観評価実験により評価した結果,Preference Scoreで56.5%のモーフィング音声が目標話者の音声に似ていると判断され,音声モーフィングを組み合わせることでシステムが出力する台詞音声の話者類似性を改善できることを示した.In this paper, we propose an improved Future Cast System (FCS) that enables anyone to be a movie star while retaining their individuality in terms of how they look and how they sound. The proposed system produces voices that are significantly matched to their targets by integrating the results of multiple methods: similar speaker selection and voice morphing. After assigning one CG character to the audience, the system produces voices in synchronization with the CG character's movement. We constructed the speech synchronization system using a voice actor database with 60 different kinds of voices. Our system achieved higher voice similarity than conventional systems; the preference score of our system was 56.5% over other conventional systems.
著者
戸田 智基 大谷 大和 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.221, pp.25-30, 2006-08-23
被引用文献数
2

声質変換(Voice Conversion: VC)の新しい枠組みとして,固有声に基づく声質変換法(Eigenvoice Conversion: EVC)を提案する.本報告では,ある特定の話者から任意の話者への変換(一対多VC),および任意の話者からある特定の話者への変換(多対一VC)に対してEVCを適用する.EVCでは,予め収録された多数話者によるパラレルデータを用いて,固有声混合正規分布モデル(Eigenvoice Gaussian Mixture Model: EV-GMM)を事前に学習する.EV-GMMは出力(多対一VCでは入力)音声の声質を制御する少量のフリーパラメータを持つ.所望の話者に対する変換モデルは,その話者の音声データに対してフリーパラメータを最尤推定する事で構築される.この際に,発話内容に関する情報は一切使用しないため,完全な教師なしモデル適応が実現される.さらに,一対多VCにおいては,フリーパラメータを声質制御イコライザーとして用いることで,出力変換音声の声質を手動で制御する事も可能である.一対多VCおよび多対一VCにおいて実験的評価を行った結果,EVCでは所望の話者の音声データが2文程度あれば,高い変換精度が得られる事が分かった.