著者
Bonada Jordi Blaauw Merlijn 才野 慶二郎 久湊 裕司
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.24, pp.1-6, 2013-08-24

音声,特に強め表現を伴う歌声においてはしばしば声帯振動に基本周期外の不規則な挙動が見られる.本稿ではこのような声質を持つ音声を再現するためのスペクトルモーフィングに基づいた音声合成手法について述べる.本手法は,ターゲットとなる声質を持った音声サンプルの励振源に相当する成分と,入力音声のスペクトル包絡を用いて合成を行うものである.まず,声質ターゲットサンプルに対し,その基本周波数を入力音声の基本周波数に合わせこむための時間領域リサンプリング処理を行う.その後,声質ターゲットサンプルのスペクトルの元々の包絡構造をなるべく復元するように,調波成分の再配置を行う.最後に,そこに入力音声の調波の振幅と位相を適用することで,入力音声の音色と声質ターゲットサンプルの声質を併せ持つ音声信号を得る.その音声信号と入力音声を任意の比率でモーフィングすることで,声質ターゲットサンプルの声質を任意の分量だけ持つ音声が合成可能となる.本稿では,グロウルの声質を持つ音声を使用した歌声合成および主観評価実験を行った.In this paper we introduce a morph-based approach for generating voice source aperiodicities frequently associated with strong vocal expressions, especially in singing. In our approach the excitation characteristics of one signal are combined with the fundamental frequency and spectral envelope characteristics of another signal. An exemplar sustained sample of the target voice quality is resampled in the time domain in order to generate a continuous signal matching the input voice's fundamental frequency. While we found the temporal scaling to be acceptable in many contexts, the frequency scaling has to be inverted in order to generate appropriate spectral content for the source excitation's entire bandwidth. Finally, the input signal's harmonic amplitudes and phases are applied to the transformed morph sample, allowing for a simple one-dimensional control of morph amount by linear interpolation with the input signal. The proposed system is evaluated and the results are discussed.
著者
Bonada Jordi Blaauw Merlijn 才野 慶二郎 久湊 裕司
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-100, no.24, pp.1-6, 2013-08-24

音声,特に強め表現を伴う歌声においてはしばしば声帯振動に基本周期外の不規則な挙動が見られる.本稿ではこのような声質を持つ音声を再現するためのスペクトルモーフィングに基づいた音声合成手法について述べる.本手法は,ターゲットとなる声質を持った音声サンプルの励振源に相当する成分と,入力音声のスペクトル包絡を用いて合成を行うものである.まず,声質ターゲットサンプルに対し,その基本周波数を入力音声の基本周波数に合わせこむための時間領域リサンプリング処理を行う.その後,声質ターゲットサンプルのスペクトルの元々の包絡構造をなるべく復元するように,調波成分の再配置を行う.最後に,そこに入力音声の調波の振幅と位相を適用することで,入力音声の音色と声質ターゲットサンプルの声質を併せ持つ音声信号を得る.その音声信号と入力音声を任意の比率でモーフィングすることで,声質ターゲットサンプルの声質を任意の分量だけ持つ音声が合成可能となる.本稿では,グロウルの声質を持つ音声を使用した歌声合成および主観評価実験を行った.
著者
橘 誠 才野 慶二郎 久湊 裕司
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013-SLP-99, no.22, pp.1-6, 2013-12-12

HMM 音声合成は統計的な韻律のモデル化により,話者性やスタイルを柔軟に多様化することができる.本稿では,その表現力を波形素片接続型の歌声合成システムである VOCALOID™ に取り入れる方法として,歌唱表現が現れる重要な特徴と考えられるピッチの変化をHMMでモデル化,生成する歌唱スタイル生成手法を提案する.HMM音声合成手法を歌唱スタイルのモデル化に利用する際には,未知の音高に対しても適切なパラメータ生成を行う必要がある.そこで本研究ではピッチベンドチェンジを用いたモデル化を提案する.また,長い時間伸ばされる音符に対して自然な変動を付与するため,ノート内を複数のセグメントに分割した単位でモデル化し,多段階のコンテキストクラスタリングを導入して楽曲構造と音符内の変動を階層的に表現する.また,この手法をVOCALOID™3の機能である Job Plugin として組み込んだ例を紹介する.
著者
橘 誠 才野 慶二郎 久湊 裕司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.113, no.366, pp.123-128, 2013-12-12

HMM音声合成は統計的な韻律のモデル化により,話者性やスタイルを柔軟に多様化することができる.本稿では,その表現力を波形素片接続型の歌声合成システムであるVOCALOID^<TM>に取り入れる方法として,歌唱表現が現れる重要な特徴と考えられるピッチの変化をHMMでモデル化,生成する歌唱スタイル生成手法を提案する.HMM音声合成手法を歌唱スタイルのモデル化に利用する際には,未知の音高に対しても適切なパラメータ生成を行う必要がある.そこで本研究ではピッチベンドチェンジを用いたモデル化を提案する.また,長い時間伸ばされる音符に対して自然な変動を付与するため,ノート内を複数のセグメントに分割した単位でモデル化し,多段階のコンテキストクラスタリングを導入して楽曲構造と音符内の変動を階層的に表現する.また,この手法をVOCALOID^<TM>3の機能であるJob Pluginとして組み込んだ例を紹介する.
著者
橘 誠 才野 慶二郎 久湊 裕司
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2013, no.22, pp.1-6, 2013-12-12

HMM 音声合成は統計的な韻律のモデル化により,話者性やスタイルを柔軟に多様化することができる.本稿では,その表現力を波形素片接続型の歌声合成システムである VOCALOID™ に取り入れる方法として,歌唱表現が現れる重要な特徴と考えられるピッチの変化をHMMでモデル化,生成する歌唱スタイル生成手法を提案する.HMM音声合成手法を歌唱スタイルのモデル化に利用する際には,未知の音高に対しても適切なパラメータ生成を行う必要がある.そこで本研究ではピッチベンドチェンジを用いたモデル化を提案する.また,長い時間伸ばされる音符に対して自然な変動を付与するため,ノート内を複数のセグメントに分割した単位でモデル化し,多段階のコンテキストクラスタリングを導入して楽曲構造と音符内の変動を階層的に表現する.また,この手法をVOCALOID™3の機能である Job Plugin として組み込んだ例を紹介する.Recent HMM-based speech synthesis systems have the capability to control speaker/style characteristics by statistically modeling prosodic features of speech. In this paper, we aim to introduce such flexibility into VOCALOID™, a singing voice synthesizer based on concatenative synthesis. An HMM is used to model the pitch trajectory, which is an important feature for expressing singing style. In order to synthesize appropriate results for pitches which do not have training data, we propose using pitch bend change as a feature for training the HMM. We also propose a segment-level unit modeling and multiple-stage clustering technique for the expression of long note sequences. We show the proposed technique implemented as a VOCALOID™3 Job Plugin.