著者
中村 和寛 大浦 圭一郎 南角 吉彦 徳田 恵一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J97-D, no.10, pp.1572-1581, 2014-10-01

本論文では隠れマルコフモデル(Hidden Markov Model; HMM) に基づく英語歌声合成について述べる.HMM歌声合成システムは,学習用の歌声データに基づいて,あらかじめスペクトル,基本周波数,ビブラートをHMMにより同時にモデル化しておき,合成時には合成したい歌声の楽譜に合わせてHMMを連結し,歌声を生成する.これまでに,日本語の楽譜から歌声を合成するシステムが提案され,一般ユーザによる楽曲作成の際のボーカルとして利用されてきている.本論文ではこのシステムを,英語の歌声を合成できるように拡張するために,英語歌声合成のコンテクストを定義し,楽譜の音符と実際の発音を対応付ける手法を提案する.客観・主観評価実験により効果を確認し,また,日本語歌声合成との比較実験も行う.
著者
才野 慶二郎 大浦 圭一郎 橘 誠 剣持 秀紀 徳田 恵一
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2012, no.7, pp.1-6, 2012-01-27

ラップのような短時間のうちに音高などの特徴が大きく変動するスタイルの歌い方は,それを適切に表現するための記譜法が確立されておらず,従来のように五線譜基づく合成の仕組みではユーザが直観的にそのスタイルの歌声を再現することが難しかった.本稿では,ラップスタイルの歌唱のための記譜法を定義し,それを用いて HMM 歌声合成の枠組みでラップスタイルの歌声合成を行った.その結果得られた合成音声はラップ特有のグリッサンド技法によるピッチ変動の現象を含むものになっていることが確認された.また,合成時に得られる対数基本周波数系列を素片接続型の歌声合成器に与えてラップスタイルの歌声を合成することも試みた.This paper addresses rap-style singing voice synthesis. Since it has not been very clear how to write a musical score for rap-style songs, existing singing voice synthesis systems based on musical scores are not suitable for synthesizing them with an intuitive input. Here a new type of musical score specialized for a rap-style is defined. An HMM-based singing voice synthesis system is used to realize an automatic synthesis of realistic rap-style singing. Glissando phenomenon which is special for the style could be found in synthesis results. It was also tried to apply pitch parameters generated from the HMMs to a sample-concatenation-based singing voice synthesis system.
著者
大浦圭一郎 間瀬 絢美 山田 知彦 徳田 恵一 後藤 真孝
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.1, pp.1-8, 2010-07-21
被引用文献数
3

近年,コンピュータによる歌声合成が注目を集めている.中でも隠れマルコフモデル(hidden Markov model; HMM)に基づく歌声合成では,歌い手の特徴を歌声データと対応する楽譜から自動的に学習することができる.2009年12月,無料のオンラインサービス「HMM歌声合成システム: Sinsy」を開始した.ユーザーは楽譜をウェブサイトにアップロードすることで,任意の楽譜に対応した歌声を合成することができる.但し,Sinsyの歌声モデルには70曲で学習した特定話者モデルを用いており,新しい歌い手の歌声モデル追加の際の収録コストが高くなる問題があった.本稿ではSinsyのシステム構成について述べるとともに,話者適応手法により少量のデータから所望の歌い手の特徴を再現した歌声を合成することを検討する.A statistical parametric approach to singing voice synthesis based on hidden Markov models (HMMs) has been grown over the last few years. In this approach, spectrum, excitation, and duration of singing voices are simultaneously modeled by context-dependent HMMs, and waveforms are generated from HMMs themselves. Since December 2009, we started a free on-line service named "Sinsy." By uploading musical scores represented by MusicXML to the Sinsy website, users can obtain synthesized singing voices. However, a high recording cost may be required to train new singer's model because a speakerdependent model trained by using 70 songs is used in Sinsy. The present paper describes the recent developments of Sinsy and a speaker adaptation technique to generate waveforms from a small amount of adaptation data.
著者
南角 吉彦 橋本 佳 徳田 恵一 大浦 圭一郎
出版者
名古屋工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2019-04-01

本研究では従来の隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発を目的とする。「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、現状の深層学習に基づくEnd-to-End音声合成における3つの問題点、1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立、の解決を目指す。
著者
大浦 圭一郎 中村 和寛 橋本 佳 南角 吉彦 徳田 恵一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.34, pp.1-6, 2019-06-15

本稿では,ニューラルネットワークに基づく音声ボコーダにおいて,周期信号と非周期信号を入力とする音声生成の枠組みを提案する.近年,ニューラルネットワークを用いて音声波形を直接モデル化する手法として WaveNet [1] が提案された.WaveNet は音声波形を高精度にモデル化することができ,自然な音声を直接生成することができるため,特に音声ボコーダ [2] として様々な研究で利用されている [3],[4],[5].しかし,過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持ち,合成時に並列演算ができないことから,実時間で合成できない問題があった.また,WaveNet を学習する際のデータベースに無い音高の再現ができない問題や,補助特徴量として指定したピッチ情報の音高を再現しないことがある問題があった.これらの問題に対し,本稿では明示的に周期信号と非周期信号の列を入力として用い,対応する音声サンプルの列を一度に生成する手法を提案する.提案手法を用いることで,実時間より高速に音声を生成できること,および,学習データの範囲外のピッチを持つ音声波形を生成できることを確認した.また,自然性に関する主観評価実験を行い,WaveNet と比較して合成音声品質の向上を確認した.
著者
大浦圭一郎 間瀬 絢美 山田 知彦 徳田 恵一 後藤 真孝
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-86, no.1, pp.1-8, 2010-07-21

近年,コンピュータによる歌声合成が注目を集めている.中でも隠れマルコフモデル(hidden Markov model; HMM)に基づく歌声合成では,歌い手の特徴を歌声データと対応する楽譜から自動的に学習することができる.2009年12月,無料のオンラインサービス「HMM歌声合成システム: Sinsy」を開始した.ユーザーは楽譜をウェブサイトにアップロードすることで,任意の楽譜に対応した歌声を合成することができる.但し,Sinsyの歌声モデルには70曲で学習した特定話者モデルを用いており,新しい歌い手の歌声モデル追加の際の収録コストが高くなる問題があった.本稿ではSinsyのシステム構成について述べるとともに,話者適応手法により少量のデータから所望の歌い手の特徴を再現した歌声を合成することを検討する.
著者
才野 慶二郎 大浦 圭一郎 橘 誠 剣持 秀紀 徳田 恵一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-94, no.7, pp.1-6, 2012-01-27

ラップのような短時間のうちに音高などの特徴が大きく変動するスタイルの歌い方は,それを適切に表現するための記譜法が確立されておらず,従来のように五線譜基づく合成の仕組みではユーザが直観的にそのスタイルの歌声を再現することが難しかった.本稿では,ラップスタイルの歌唱のための記譜法を定義し,それを用いて HMM 歌声合成の枠組みでラップスタイルの歌声合成を行った.その結果得られた合成音声はラップ特有のグリッサンド技法によるピッチ変動の現象を含むものになっていることが確認された.また,合成時に得られる対数基本周波数系列を素片接続型の歌声合成器に与えてラップスタイルの歌声を合成することも試みた.
著者
全 炳河 大浦圭一郎 能勢 隆 山岸 順一 酒向慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.301-306, 2007-12-21

近年,隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
大浦圭一郎 南角吉彦 徳田恵一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-99, no.52, pp.1-3, 2013-05-04

近年,音声合成関連の研究分野では,統計的パラメトリック音声合成と呼ばれる統計モデルに基づいた手法が広く研究されている.この中でも,統計モデルとして隠れマルコフモデル(Hidden Markov Model; HMM)を用いるHMM音声合成方式は,理論的に整理されたアルゴリズムと利用しやすいソフトウェアツールが公開されており,広く普及してきている.従来の波形接続方式と比較するとHMM音声合成方式は,発話の癖の再現や感情音声合成などの多様性,さらにそのフットプリントの小ささや言語依存性の低さなど,多くの優位性を持っている.一方,歌声合成関連の研究分野では従来の波形接続方式が広く用いられているものの,HMM音声合成方式も徐々に使われてきている.このような流れの中,我々はSinsyと名付けたHMM歌声合成システムを構築し,そのオンラインデモを公開した.本稿ではHMM歌声合成方式を紹介し,現状のSinsyのサービスや,今後の展望等を述べる.
著者
才野 慶二郎 大浦 圭一郎 橘 誠 剣持 秀紀 徳田 恵一
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.7, pp.1-6, 2012-01-27

ラップのような短時間のうちに音高などの特徴が大きく変動するスタイルの歌い方は,それを適切に表現するための記譜法が確立されておらず,従来のように五線譜基づく合成の仕組みではユーザが直観的にそのスタイルの歌声を再現することが難しかった.本稿では,ラップスタイルの歌唱のための記譜法を定義し,それを用いて HMM 歌声合成の枠組みでラップスタイルの歌声合成を行った.その結果得られた合成音声はラップ特有のグリッサンド技法によるピッチ変動の現象を含むものになっていることが確認された.また,合成時に得られる対数基本周波数系列を素片接続型の歌声合成器に与えてラップスタイルの歌声を合成することも試みた.
著者
虫鹿 弘二 中村 和寛 橋本 佳 大浦 圭一郎 南角 吉彦 徳田 恵一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [音楽情報科学]
巻号頁・発行日
vol.2015, no.13, pp.1-6, 2015-02-23

隠れマルコフモデル (HMM) に基づく歌声合成システムは,あらかじめ用意された歌声データから統計モデルを学習し,任意の歌声を合成する.HMM 歌声合成の性能は学習データに強く依存するため,高品質な歌声を合成するためには高品質な歌声データベースが必要になる.しかし,実際のデータベースには,歌い間違いやノイズなどの誤りが含まれていることが多い.特に,これからは音声合成の分野でも,インターネット上の大量のデータを学習に有効活用するという流れが加速していくと考えられ,そのような誤りを多く含むデータから高精度なモデルを学習する手法が必要である.そこで本稿では,学習データ内の誤りを局所的に除外することによる誤りに頑健なモデルの学習手法を提案し,主観評価実験により提案手法の有効性を評価する.
著者
徳田 恵一 大浦 圭一郎
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.1, pp.1-6, 2012-01-27

本稿では,HMM 音声合成の手法に基づいた歌声合成システム “Sinsy” について述べる.本システムは,歌声データと対応する歌詞付きの楽譜から,モデルパラメータを自動学習するものであり,学習後は,歌詞付きの楽譜を与えることにより,歌声データ提供者の声質,歌い方等を再現する形で,任意の曲を自動で歌わせることができる.まずはじめに HMM 音声合成について概説し,それがどのように歌声合成に拡張されるかについて述べる.また,2009 年 12 月に開設されたオンラインデモについて触れた上で,今後の技術開発に関してどのような展開が期待されるかについて議論する.
著者
全 炳河 大浦 圭一郎 能勢 隆 山岸 順一 酒向 慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.405, pp.301-306, 2007-12-13

近年,隠れマルコフモデル(HMM)に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存HMMにより同時にモデル化される.音声合成時は,合成したい文章に対応するHMMからの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002年より我々は,HMMに基づく音声合成のための研究・開発ツール「HMM音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
大浦 圭一郎 全 炳河 南角 吉彦 李 晃伸 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.338, pp.215-220, 2008-12-02

本報告では隠れマルコフモデル(Hidden Markov Model; HMM)に基づく音声合成システムにおける共分散パラメータの共有について述べる.近年,音声合成システムへの需要が高まっており,HMMに基づいた音声合成システムでは音声波形の断片をそのまま利用するのではなく,音声波形の特徴をHMMによりモデル化し,HMMのモデルパラメータを合成システムに保持するため,同程度の音質の波形接続法式に比べてフットプリントが小さい利点がある.中でも組み込み向けのシステムには携帯電話,PDA,カーナビ,情報家電,ゲーム機等への用途があるが,必要なCPU,メモリ等が制限されることが多く,更なるフットプリントの縮小が必要である.HMMに基づく音声合成システムにコンテキスト依存モデルを用いることで高精度な音響モデルを構築することができ,決定木に基づくコンテキストクラスタリングを用いて状態共有構造を構築する際に,組み込み用途向けに決定木のサイズを小さくすることも考えられるが,音質が劣化する.本報告では,平均に比べて共分散が音質に与える影響が小さいことに注目し,全てのパラメータの共分散を共有する手法を提案する.このパラメータ共有を仮定した上でのコンテキストクラスタリングを行い,主観評価実験により,パラメータ数を大幅に削減するのみならず,若干の品質改善を達成した.