著者
中村 和寛 大浦 圭一郎 南角 吉彦 徳田 恵一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J97-D, no.10, pp.1572-1581, 2014-10-01

本論文では隠れマルコフモデル(Hidden Markov Model; HMM) に基づく英語歌声合成について述べる.HMM歌声合成システムは,学習用の歌声データに基づいて,あらかじめスペクトル,基本周波数,ビブラートをHMMにより同時にモデル化しておき,合成時には合成したい歌声の楽譜に合わせてHMMを連結し,歌声を生成する.これまでに,日本語の楽譜から歌声を合成するシステムが提案され,一般ユーザによる楽曲作成の際のボーカルとして利用されてきている.本論文ではこのシステムを,英語の歌声を合成できるように拡張するために,英語歌声合成のコンテクストを定義し,楽譜の音符と実際の発音を対応付ける手法を提案する.客観・主観評価実験により効果を確認し,また,日本語歌声合成との比較実験も行う.
著者
大浦 圭一郎 中村 和寛 橋本 佳 南角 吉彦 徳田 恵一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.34, pp.1-6, 2019-06-15

本稿では,ニューラルネットワークに基づく音声ボコーダにおいて,周期信号と非周期信号を入力とする音声生成の枠組みを提案する.近年,ニューラルネットワークを用いて音声波形を直接モデル化する手法として WaveNet [1] が提案された.WaveNet は音声波形を高精度にモデル化することができ,自然な音声を直接生成することができるため,特に音声ボコーダ [2] として様々な研究で利用されている [3],[4],[5].しかし,過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持ち,合成時に並列演算ができないことから,実時間で合成できない問題があった.また,WaveNet を学習する際のデータベースに無い音高の再現ができない問題や,補助特徴量として指定したピッチ情報の音高を再現しないことがある問題があった.これらの問題に対し,本稿では明示的に周期信号と非周期信号の列を入力として用い,対応する音声サンプルの列を一度に生成する手法を提案する.提案手法を用いることで,実時間より高速に音声を生成できること,および,学習データの範囲外のピッチを持つ音声波形を生成できることを確認した.また,自然性に関する主観評価実験を行い,WaveNet と比較して合成音声品質の向上を確認した.
著者
虫鹿 弘二 中村 和寛 橋本 佳 大浦 圭一郎 南角 吉彦 徳田 恵一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [音楽情報科学]
巻号頁・発行日
vol.2015, no.13, pp.1-6, 2015-02-23

隠れマルコフモデル (HMM) に基づく歌声合成システムは,あらかじめ用意された歌声データから統計モデルを学習し,任意の歌声を合成する.HMM 歌声合成の性能は学習データに強く依存するため,高品質な歌声を合成するためには高品質な歌声データベースが必要になる.しかし,実際のデータベースには,歌い間違いやノイズなどの誤りが含まれていることが多い.特に,これからは音声合成の分野でも,インターネット上の大量のデータを学習に有効活用するという流れが加速していくと考えられ,そのような誤りを多く含むデータから高精度なモデルを学習する手法が必要である.そこで本稿では,学習データ内の誤りを局所的に除外することによる誤りに頑健なモデルの学習手法を提案し,主観評価実験により提案手法の有効性を評価する.