著者
大浦圭一郎 間瀬 絢美 山田 知彦 徳田 恵一 後藤 真孝
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.1, pp.1-8, 2010-07-21
被引用文献数
3

近年,コンピュータによる歌声合成が注目を集めている.中でも隠れマルコフモデル(hidden Markov model; HMM)に基づく歌声合成では,歌い手の特徴を歌声データと対応する楽譜から自動的に学習することができる.2009年12月,無料のオンラインサービス「HMM歌声合成システム: Sinsy」を開始した.ユーザーは楽譜をウェブサイトにアップロードすることで,任意の楽譜に対応した歌声を合成することができる.但し,Sinsyの歌声モデルには70曲で学習した特定話者モデルを用いており,新しい歌い手の歌声モデル追加の際の収録コストが高くなる問題があった.本稿ではSinsyのシステム構成について述べるとともに,話者適応手法により少量のデータから所望の歌い手の特徴を再現した歌声を合成することを検討する.A statistical parametric approach to singing voice synthesis based on hidden Markov models (HMMs) has been grown over the last few years. In this approach, spectrum, excitation, and duration of singing voices are simultaneously modeled by context-dependent HMMs, and waveforms are generated from HMMs themselves. Since December 2009, we started a free on-line service named "Sinsy." By uploading musical scores represented by MusicXML to the Sinsy website, users can obtain synthesized singing voices. However, a high recording cost may be required to train new singer's model because a speakerdependent model trained by using 70 songs is used in Sinsy. The present paper describes the recent developments of Sinsy and a speaker adaptation technique to generate waveforms from a small amount of adaptation data.
著者
山田 知彦 武藤 聡 南角 吉彦 酒向 慎司 徳田 恵一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2009-MUS-80, no.5, pp.1-6, 2009-05-14

HMM に基づく歌声合成は歌い手の特徴を歌声データと楽譜から自動学習し,任意のメロディからその特徴を再現した歌声を合成できる.その際,歌声の音色・発音と音高における歌い手の特徴を,それぞれスペクトルと基本周波数の時間変化として HMM でモデル化している.本稿では,歌唱表現のひとつであるビブラートを音高の周期的な揺らぎと仮定し正弦波でモデル化する.そのパラメータをスペクトル及び基本周波数と同時に HMM でモデル化する.歌声の合成実験では,女性 1 名による童謡 60 曲の歌声データを学習し,主観評価実験によってビブラートモデルの導入による自然性の向上が確認できた.
著者
大浦圭一郎 間瀬 絢美 山田 知彦 徳田 恵一 後藤 真孝
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-86, no.1, pp.1-8, 2010-07-21

近年,コンピュータによる歌声合成が注目を集めている.中でも隠れマルコフモデル(hidden Markov model; HMM)に基づく歌声合成では,歌い手の特徴を歌声データと対応する楽譜から自動的に学習することができる.2009年12月,無料のオンラインサービス「HMM歌声合成システム: Sinsy」を開始した.ユーザーは楽譜をウェブサイトにアップロードすることで,任意の楽譜に対応した歌声を合成することができる.但し,Sinsyの歌声モデルには70曲で学習した特定話者モデルを用いており,新しい歌い手の歌声モデル追加の際の収録コストが高くなる問題があった.本稿ではSinsyのシステム構成について述べるとともに,話者適応手法により少量のデータから所望の歌い手の特徴を再現した歌声を合成することを検討する.