著者
中村 和寛 大浦 圭一郎 南角 吉彦 徳田 恵一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J97-D, no.10, pp.1572-1581, 2014-10-01

本論文では隠れマルコフモデル(Hidden Markov Model; HMM) に基づく英語歌声合成について述べる.HMM歌声合成システムは,学習用の歌声データに基づいて,あらかじめスペクトル,基本周波数,ビブラートをHMMにより同時にモデル化しておき,合成時には合成したい歌声の楽譜に合わせてHMMを連結し,歌声を生成する.これまでに,日本語の楽譜から歌声を合成するシステムが提案され,一般ユーザによる楽曲作成の際のボーカルとして利用されてきている.本論文ではこのシステムを,英語の歌声を合成できるように拡張するために,英語歌声合成のコンテクストを定義し,楽譜の音符と実際の発音を対応付ける手法を提案する.客観・主観評価実験により効果を確認し,また,日本語歌声合成との比較実験も行う.
著者
丸目 雅浩 南角 吉彦 酒向慎司 徳田 恵一 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.247-252, 2007-12-21

音声合成の需要の高まりにより,多様な話者性や発話スタイルを持った音声の合成が望まれている.しかし,このような音声の合成には,話者や発話スタイルに応じてモデルを用意する必要があり現実的ではない.そこで,少量の学習データにより,多様な話者性を持つ音声の合成を可能とする混合ガウスモデル(GMM)に基づく声質変換が提案されている.しかし,従来の GMM に基づく声質変換では,尤度最大化(ML)基準によりモデルパラメータを点推定しているため,学習データが十分に得られない場合,モデルの推定精度が低下する可能性がある.そこで,GMM に基づく声質変換に変分ベイズ法を適用し,ベイズ基準による声質変換を行う.提案法では,ML 基準に比べて,声質変換の音質と話者性において,品質向上が確認でき,推定精度の高いモデルが得られることがわかった.It is desired a technique for synthesizing speech with various speaker characteristics and speaking styles, by increasing the demand of speech synthesis. However, a large amount of training data is required to construct the system for each characteristics and speaking styleVoice conversion based on Gaussian Mixture Model (GMM) is one of techniques which can solve this problem. GMM is estimated from a small amount of training data based on the Maximam Likelihood (ML) criterion. However, the GMM based voice conversion technique still suffers from the overfitting problem due to insufficient training data and a point estimation of the ML criterion. To improve this problem, we applied the varational Bayes method to the GMM based voice conversion. In experiments, it was confirmed that the proposed technique improves the quality of converted voice, because of its higher generalization ability than the conventional ML based approach.
著者
宇藤陽介 南角 吉彦 季晃伸 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.103-108, 2007-12-20

声質変換とは,ある話者が発した音声を別の話者が発したかのような音声に変換する技術であり,任意の音声を合成する音声合成システムよりも少量の学習データで実現可能である.従来の声質変換ではスペクトルをガウス混合モデル (Gaussian Mixture Model; GMM) でモデル化し,非線形に変換する手法が広く用いられる.しかし,F0 の変換に関してはスペクトルとは独立に線形変換が用いられることが多かった.これは,F0 が有声区間のみで定義されており,無声区間では値を持たず,系列全体を通常の連続分布や離散分布でモデル化することが容易ではないためである.本報告では,多空間上の確率分布 (Multi-Space Probability Distribution; MSD) に基づく GMM (MSD-GMM) を用いたスペクトルと F0 の同時変換手法を提案する.提案法では,F0 の非線形変換が可能になるだけでなく,有声から無声や無声から有声への変換も可能となる.さらに本研究では,F0 の時間方向の変動をモデル化するために MSD-HMM への拡張を検討する.
著者
酒向慎司 才野 慶二郎 南角 吉彦 徳田 恵一 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.39-44, 2008-02-08
被引用文献数
2

声質や歌唱法など歌い手の特徴を歌声データと楽譜から自動学習し,それらを再現するような歌声合成システムについて述べる.本システムでは,歌い手の声質とピッチに関する特徴を確率モデルによる統一的な枠組みでモデル化している.特に,リズムやメロディといった音楽特有の表現要素が,音声信号のスペクトルや基本周波数パターンの変動に大きく関係していることから,楽譜から得られる音階や音長などを考慮したモデル化を行い,楽譜と歌詞を入力として,個人性を備えた歌声を合成するシステムを構築してきた.本手法の特徴は,このような歌声合成モデルを楽譜と歌声データから自動学習できることにある.本報告では,音楽固有のコンテキストの導入,実際の歌声データと楽譜の音符列の間のずれに着目した時間構造モデルについて検討する.実験では,童謡60曲の男性1名の歌声データを用いた歌声合成システムを構成し,ずれモデルの導入による自然性の向上が確認できた.We describe a trainable singing voice synthesis system, that can automatically learns the model parameters from singing voice waveform and musical scores by applying HMM-based speech synthesis technique. In this system, a sequence of spectrum and fundamental freqency (F0) are modeled simultaneously in a unified framework of HMM, and context dependent HMMs are constructed by taking account of contextual factors that affects singing voice. In addition, the distributions for spectral and F0 parameter are clustered independently by using a decision-tree based context clustering technique. Synthetic singing voice is generated from HMMs themselves by using parameter generation algorithm. We introduced an additional "time-lag" model to control start timing of each musical note. In the experiments, we confirmed that smooth and natural-sounding singing voice is synthesized. It is also maintains the characteristics and personality of the donor of the singing voice data for HMM training.
著者
南角 吉彦 橋本 佳 徳田 恵一 大浦 圭一郎
出版者
名古屋工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2019-04-01

本研究では従来の隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発を目的とする。「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、現状の深層学習に基づくEnd-to-End音声合成における3つの問題点、1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立、の解決を目指す。
著者
山田 知彦 武藤 聡 南角 吉彦 酒向 慎司 徳田 恵一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2009-MUS-80, no.5, pp.1-6, 2009-05-14

HMM に基づく歌声合成は歌い手の特徴を歌声データと楽譜から自動学習し,任意のメロディからその特徴を再現した歌声を合成できる.その際,歌声の音色・発音と音高における歌い手の特徴を,それぞれスペクトルと基本周波数の時間変化として HMM でモデル化している.本稿では,歌唱表現のひとつであるビブラートを音高の周期的な揺らぎと仮定し正弦波でモデル化する.そのパラメータをスペクトル及び基本周波数と同時に HMM でモデル化する.歌声の合成実験では,女性 1 名による童謡 60 曲の歌声データを学習し,主観評価実験によってビブラートモデルの導入による自然性の向上が確認できた.
著者
大浦 圭一郎 中村 和寛 橋本 佳 南角 吉彦 徳田 恵一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.34, pp.1-6, 2019-06-15

本稿では,ニューラルネットワークに基づく音声ボコーダにおいて,周期信号と非周期信号を入力とする音声生成の枠組みを提案する.近年,ニューラルネットワークを用いて音声波形を直接モデル化する手法として WaveNet [1] が提案された.WaveNet は音声波形を高精度にモデル化することができ,自然な音声を直接生成することができるため,特に音声ボコーダ [2] として様々な研究で利用されている [3],[4],[5].しかし,過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持ち,合成時に並列演算ができないことから,実時間で合成できない問題があった.また,WaveNet を学習する際のデータベースに無い音高の再現ができない問題や,補助特徴量として指定したピッチ情報の音高を再現しないことがある問題があった.これらの問題に対し,本稿では明示的に周期信号と非周期信号の列を入力として用い,対応する音声サンプルの列を一度に生成する手法を提案する.提案手法を用いることで,実時間より高速に音声を生成できること,および,学習データの範囲外のピッチを持つ音声波形を生成できることを確認した.また,自然性に関する主観評価実験を行い,WaveNet と比較して合成音声品質の向上を確認した.
著者
大浦圭一郎 南角吉彦 徳田恵一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-99, no.52, pp.1-3, 2013-05-04

近年,音声合成関連の研究分野では,統計的パラメトリック音声合成と呼ばれる統計モデルに基づいた手法が広く研究されている.この中でも,統計モデルとして隠れマルコフモデル(Hidden Markov Model; HMM)を用いるHMM音声合成方式は,理論的に整理されたアルゴリズムと利用しやすいソフトウェアツールが公開されており,広く普及してきている.従来の波形接続方式と比較するとHMM音声合成方式は,発話の癖の再現や感情音声合成などの多様性,さらにそのフットプリントの小ささや言語依存性の低さなど,多くの優位性を持っている.一方,歌声合成関連の研究分野では従来の波形接続方式が広く用いられているものの,HMM音声合成方式も徐々に使われてきている.このような流れの中,我々はSinsyと名付けたHMM歌声合成システムを構築し,そのオンラインデモを公開した.本稿ではHMM歌声合成方式を紹介し,現状のSinsyのサービスや,今後の展望等を述べる.
著者
虫鹿 弘二 中村 和寛 橋本 佳 大浦 圭一郎 南角 吉彦 徳田 恵一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [音楽情報科学]
巻号頁・発行日
vol.2015, no.13, pp.1-6, 2015-02-23

隠れマルコフモデル (HMM) に基づく歌声合成システムは,あらかじめ用意された歌声データから統計モデルを学習し,任意の歌声を合成する.HMM 歌声合成の性能は学習データに強く依存するため,高品質な歌声を合成するためには高品質な歌声データベースが必要になる.しかし,実際のデータベースには,歌い間違いやノイズなどの誤りが含まれていることが多い.特に,これからは音声合成の分野でも,インターネット上の大量のデータを学習に有効活用するという流れが加速していくと考えられ,そのような誤りを多く含むデータから高精度なモデルを学習する手法が必要である.そこで本稿では,学習データ内の誤りを局所的に除外することによる誤りに頑健なモデルの学習手法を提案し,主観評価実験により提案手法の有効性を評価する.
著者
熊木 慶介 南角 吉彦 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.110, no.97, pp.45-50, 2010-06-17

画像認識システムでは,認識対象の位置,大きさ,回転等の幾何学的な変動に対応する必要がある.これまでに,このような画像の変動に対する正規化が組み込まれた確率モデルとして分離型格子HMMが提案されている.分離型格子HMMでは,横方向,縦方向の2本の状態系列を保持することにより,認識対象の位置や大きさの変動に対応することが可能である.しかし,このモデルでは回転や歪みには対応することができない.そこで本稿では,画像の各行,各列毎に個別の状態系列を保持するモデルとして拡張分離型格子HMMを提案する.状態系列を増やすことにより,複雑な状態アライメントが可能となるため認識対象の回転や歪みに対応できることが期待される.さらに,変分EMアルゴリズムに基づく学習アルゴリズムを導出し,顔画像認識実験により提案法の有効性を示す.
著者
大浦 圭一郎 全 炳河 南角 吉彦 李 晃伸 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.338, pp.215-220, 2008-12-02

本報告では隠れマルコフモデル(Hidden Markov Model; HMM)に基づく音声合成システムにおける共分散パラメータの共有について述べる.近年,音声合成システムへの需要が高まっており,HMMに基づいた音声合成システムでは音声波形の断片をそのまま利用するのではなく,音声波形の特徴をHMMによりモデル化し,HMMのモデルパラメータを合成システムに保持するため,同程度の音質の波形接続法式に比べてフットプリントが小さい利点がある.中でも組み込み向けのシステムには携帯電話,PDA,カーナビ,情報家電,ゲーム機等への用途があるが,必要なCPU,メモリ等が制限されることが多く,更なるフットプリントの縮小が必要である.HMMに基づく音声合成システムにコンテキスト依存モデルを用いることで高精度な音響モデルを構築することができ,決定木に基づくコンテキストクラスタリングを用いて状態共有構造を構築する際に,組み込み用途向けに決定木のサイズを小さくすることも考えられるが,音質が劣化する.本報告では,平均に比べて共分散が音質に与える影響が小さいことに注目し,全てのパラメータの共分散を共有する手法を提案する.このパラメータ共有を仮定した上でのコンテキストクラスタリングを行い,主観評価実験により,パラメータ数を大幅に削減するのみならず,若干の品質改善を達成した.