著者
酒向慎司 宮島 千代美 徳田 恵一 北村 正
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2003, no.82(2003-MUS-051), pp.77-82, 2003-08-04

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成する上で重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリング行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し,なめらかで自然性の高い歌声の合成が可能であることを示す.
著者
中村 和寛 大浦 圭一郎 南角 吉彦 徳田 恵一
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J97-D, no.10, pp.1572-1581, 2014-10-01

本論文では隠れマルコフモデル(Hidden Markov Model; HMM) に基づく英語歌声合成について述べる.HMM歌声合成システムは,学習用の歌声データに基づいて,あらかじめスペクトル,基本周波数,ビブラートをHMMにより同時にモデル化しておき,合成時には合成したい歌声の楽譜に合わせてHMMを連結し,歌声を生成する.これまでに,日本語の楽譜から歌声を合成するシステムが提案され,一般ユーザによる楽曲作成の際のボーカルとして利用されてきている.本論文ではこのシステムを,英語の歌声を合成できるように拡張するために,英語歌声合成のコンテクストを定義し,楽譜の音符と実際の発音を対応付ける手法を提案する.客観・主観評価実験により効果を確認し,また,日本語歌声合成との比較実験も行う.
著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
吉村 貴克 徳田 恵一 益子 貴史 小林 隆夫 北村 正
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.87, no.8, pp.1565-1571, 2004-08-01
被引用文献数
4

本論文は,HMMに基づいた音声合成システムに混合励振源モデルを導入することにより,合成音声の品質向上を図ることを目的とする.我々はこれまでに,メルケプストラム,基本周波数,継続長をHMMの枠組みでモデル化し,HMMからこれらの音声パラメータを出力することによって音声を合成するテキスト音声合成システムを提案した.このシステムでは,合成フィルタ(MLSAフィルタ)を励振する際の励振源モデルとして,有声区間,無声区間でそれぞれパルス列と白色雑音を切り換える単純なモデルを用いている.このような励振源を用いる場合,有声摩擦音のように周期成分と非周期成分をともにもつ音声を合成することができず,合成音声の品質を劣化させる原因となる.そこで本論文では,パルス列と白色雑音を混合する混合励振源モデルを用いることにより高品質な音声を実現している狭帯域音声符号化手法MELPの混合励振源モデルを導入する.この混合励振源モデルは,狭帯域音声符号化だけでなく,広帯域音声符号化へも応用されていることから,音声合成においても有効性が期待される.更に,多くの音声符号化手法で用いられているポストフィルタを導入し,合成音声の品質を向上を図る.また主観評価実験により,本システムにおける混合励振源モデルとポストフィルタの有効性を示す.
著者
才野 慶二郎 大浦 圭一郎 橘 誠 剣持 秀紀 徳田 恵一
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2012, no.7, pp.1-6, 2012-01-27

ラップのような短時間のうちに音高などの特徴が大きく変動するスタイルの歌い方は,それを適切に表現するための記譜法が確立されておらず,従来のように五線譜基づく合成の仕組みではユーザが直観的にそのスタイルの歌声を再現することが難しかった.本稿では,ラップスタイルの歌唱のための記譜法を定義し,それを用いて HMM 歌声合成の枠組みでラップスタイルの歌声合成を行った.その結果得られた合成音声はラップ特有のグリッサンド技法によるピッチ変動の現象を含むものになっていることが確認された.また,合成時に得られる対数基本周波数系列を素片接続型の歌声合成器に与えてラップスタイルの歌声を合成することも試みた.This paper addresses rap-style singing voice synthesis. Since it has not been very clear how to write a musical score for rap-style songs, existing singing voice synthesis systems based on musical scores are not suitable for synthesizing them with an intuitive input. Here a new type of musical score specialized for a rap-style is defined. An HMM-based singing voice synthesis system is used to realize an automatic synthesis of realistic rap-style singing. Glissando phenomenon which is special for the style could be found in synthesis results. It was also tried to apply pitch parameters generated from the HMMs to a sample-concatenation-based singing voice synthesis system.
著者
丸目 雅浩 南角 吉彦 酒向慎司 徳田 恵一 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.247-252, 2007-12-21

音声合成の需要の高まりにより,多様な話者性や発話スタイルを持った音声の合成が望まれている.しかし,このような音声の合成には,話者や発話スタイルに応じてモデルを用意する必要があり現実的ではない.そこで,少量の学習データにより,多様な話者性を持つ音声の合成を可能とする混合ガウスモデル(GMM)に基づく声質変換が提案されている.しかし,従来の GMM に基づく声質変換では,尤度最大化(ML)基準によりモデルパラメータを点推定しているため,学習データが十分に得られない場合,モデルの推定精度が低下する可能性がある.そこで,GMM に基づく声質変換に変分ベイズ法を適用し,ベイズ基準による声質変換を行う.提案法では,ML 基準に比べて,声質変換の音質と話者性において,品質向上が確認でき,推定精度の高いモデルが得られることがわかった.It is desired a technique for synthesizing speech with various speaker characteristics and speaking styles, by increasing the demand of speech synthesis. However, a large amount of training data is required to construct the system for each characteristics and speaking styleVoice conversion based on Gaussian Mixture Model (GMM) is one of techniques which can solve this problem. GMM is estimated from a small amount of training data based on the Maximam Likelihood (ML) criterion. However, the GMM based voice conversion technique still suffers from the overfitting problem due to insufficient training data and a point estimation of the ML criterion. To improve this problem, we applied the varational Bayes method to the GMM based voice conversion. In experiments, it was confirmed that the proposed technique improves the quality of converted voice, because of its higher generalization ability than the conventional ML based approach.
著者
宇藤陽介 南角 吉彦 季晃伸 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.103-108, 2007-12-20

声質変換とは,ある話者が発した音声を別の話者が発したかのような音声に変換する技術であり,任意の音声を合成する音声合成システムよりも少量の学習データで実現可能である.従来の声質変換ではスペクトルをガウス混合モデル (Gaussian Mixture Model; GMM) でモデル化し,非線形に変換する手法が広く用いられる.しかし,F0 の変換に関してはスペクトルとは独立に線形変換が用いられることが多かった.これは,F0 が有声区間のみで定義されており,無声区間では値を持たず,系列全体を通常の連続分布や離散分布でモデル化することが容易ではないためである.本報告では,多空間上の確率分布 (Multi-Space Probability Distribution; MSD) に基づく GMM (MSD-GMM) を用いたスペクトルと F0 の同時変換手法を提案する.提案法では,F0 の非線形変換が可能になるだけでなく,有声から無声や無声から有声への変換も可能となる.さらに本研究では,F0 の時間方向の変動をモデル化するために MSD-HMM への拡張を検討する.
著者
徳田 恵一
雑誌
情報処理
巻号頁・発行日
vol.45, no.10, pp.1005-1011, 2004-10-15

音声認識の分野では,時系列の統計モデルである隠れマルコフモデル(Hidden Markov Model: 以下HMM)が音声パラメータ系列のモデル化手法として有効なことが知られ,実用的なシステムにおいても広く用いられている.本稿では,HMMの定義および関連するアルゴリズムについて,概説した上で,音声認識および音声合成におけるHMMの利用について述べる.また,HMMの限界を指摘した上で,次世代音声モデルとして期待される手法についても触れる.
著者
徳田 恵一 益子 貴史 小林 隆夫 今井 聖
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.53, no.3, pp.192-200, 1997-03-01
被引用文献数
104

動的特徴 (音声のデルタ及びデルタデルタパラメータを含む混合連続分布HMMから音声パラメータ列を生成するための高速アルゴリズムを提案する。ここでは, 尤度最大の意味で最適な音声パラメータ列を生成することを考え, この問題を現実的な演算量で解くため, 適応フィルタリングにおけるRLSアルゴリズムと類似の手法を用いて高速アルゴリズムを導出した。また, 提案アルゴリズムにより, 静的及び動的特徴の統計情報(平均及び共分散)を反映した音声パラメータ列の生成が可能となることを例によって示すと共に, 提案アルゴリズムの音声の規則合成への応用について考察を加えている。
著者
酒向慎司 宮島千代美;徳田恵一 北村正 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.3, pp.719-727, 2004-03-15
参考文献数
16
被引用文献数
19

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成するうえで重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリングを行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し歌声の合成が可能であることを示す.We describe a singing voice synthesis system by applying HMM-basedspeech synthesis technique.In this system, a sequence of spectrum and F0 are modeledsimultaneously in a unified framework of HMM, and context dependentHMMs are constructed by taking account of contextual factors thataffects singing voice.In addition, the distributions for spectral and F0 parameter areclustered independently by using a decision-tree based contextclustering technique.Synthetic singing voice is generated from HMMs themselves by usingparameter generation algorithm. In the experiments, we confirmed that smooth and natural-soundingsinging voice is synthesised. It is also maintains the characteristicsand personality of the donor of the singing voice data for HMMtraining.
著者
全 炳河 徳田 恵一 益子 貴史 小林 隆夫 北村 正
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DSP, ディジタル信号処理 (ISSN:09135685)
巻号頁・発行日
vol.101, no.323, pp.53-58, 2001-09-21
参考文献数
12

多空間上の確率分布に基づくHMM(multi-space probability distribution HMM:MSD-HMM)により, ピッチパターンをモデル化し, 学習したMSD-HMMからピッチパターンを出力する手法を提案し, 音声合成に適応した.しかしこれまでは, 有声/無声境界における動的特徴量を考慮せずにピッチをモデル化していたため, ピッチパターンを生成した際, 無声区間を挟んだ2つの有声区間の間でピッチパターンが不連続に変化する場合があった.本論文では有声/無声境界の動的特徴量を考慮してMSD-HMMによりピッチパターンをモデル化し, より自然性の高いピッチパターンを生成する手法について述べる.
著者
大浦圭一郎 間瀬 絢美 山田 知彦 徳田 恵一 後藤 真孝
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.1, pp.1-8, 2010-07-21
被引用文献数
3

近年,コンピュータによる歌声合成が注目を集めている.中でも隠れマルコフモデル(hidden Markov model; HMM)に基づく歌声合成では,歌い手の特徴を歌声データと対応する楽譜から自動的に学習することができる.2009年12月,無料のオンラインサービス「HMM歌声合成システム: Sinsy」を開始した.ユーザーは楽譜をウェブサイトにアップロードすることで,任意の楽譜に対応した歌声を合成することができる.但し,Sinsyの歌声モデルには70曲で学習した特定話者モデルを用いており,新しい歌い手の歌声モデル追加の際の収録コストが高くなる問題があった.本稿ではSinsyのシステム構成について述べるとともに,話者適応手法により少量のデータから所望の歌い手の特徴を再現した歌声を合成することを検討する.A statistical parametric approach to singing voice synthesis based on hidden Markov models (HMMs) has been grown over the last few years. In this approach, spectrum, excitation, and duration of singing voices are simultaneously modeled by context-dependent HMMs, and waveforms are generated from HMMs themselves. Since December 2009, we started a free on-line service named "Sinsy." By uploading musical scores represented by MusicXML to the Sinsy website, users can obtain synthesized singing voices. However, a high recording cost may be required to train new singer's model because a speakerdependent model trained by using 70 songs is used in Sinsy. The present paper describes the recent developments of Sinsy and a speaker adaptation technique to generate waveforms from a small amount of adaptation data.
著者
酒向慎司 才野 慶二郎 南角 吉彦 徳田 恵一 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.39-44, 2008-02-08
被引用文献数
2

声質や歌唱法など歌い手の特徴を歌声データと楽譜から自動学習し,それらを再現するような歌声合成システムについて述べる.本システムでは,歌い手の声質とピッチに関する特徴を確率モデルによる統一的な枠組みでモデル化している.特に,リズムやメロディといった音楽特有の表現要素が,音声信号のスペクトルや基本周波数パターンの変動に大きく関係していることから,楽譜から得られる音階や音長などを考慮したモデル化を行い,楽譜と歌詞を入力として,個人性を備えた歌声を合成するシステムを構築してきた.本手法の特徴は,このような歌声合成モデルを楽譜と歌声データから自動学習できることにある.本報告では,音楽固有のコンテキストの導入,実際の歌声データと楽譜の音符列の間のずれに着目した時間構造モデルについて検討する.実験では,童謡60曲の男性1名の歌声データを用いた歌声合成システムを構成し,ずれモデルの導入による自然性の向上が確認できた.We describe a trainable singing voice synthesis system, that can automatically learns the model parameters from singing voice waveform and musical scores by applying HMM-based speech synthesis technique. In this system, a sequence of spectrum and fundamental freqency (F0) are modeled simultaneously in a unified framework of HMM, and context dependent HMMs are constructed by taking account of contextual factors that affects singing voice. In addition, the distributions for spectral and F0 parameter are clustered independently by using a decision-tree based context clustering technique. Synthetic singing voice is generated from HMMs themselves by using parameter generation algorithm. We introduced an additional "time-lag" model to control start timing of each musical note. In the experiments, we confirmed that smooth and natural-sounding singing voice is synthesized. It is also maintains the characteristics and personality of the donor of the singing voice data for HMM training.
著者
吉村 貴克 徳田 恵一 益子 貴史 小林 隆夫 北村 正
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2099-2107, 2000-11-25
被引用文献数
92

本論文では, HMMに基づく音声合成において, スペクトル, ピッチ, 継続長をHMMの枠組みで統一的にモデル化する手法について述べる.本システムでは, スペクトル・ピッチ継続長モデルとして, それぞれ連続分布HMM, 多空間確率分布HMM(MSD-HMM), 多次元ガウス分布を用い, 音素環境, アクセント, 品調などのコンテクストを考慮したコンテクスト依存モデルを構築する.コンテクスト依存モデルは, 決定木に基づくコンテクストクラスタリング手法によりクラスタリングされる.決定木構築の際, 節分割はMDL基準により行う.このこめ, 新たにMSD-HMMに対するMDL基準によるコンテクストクラスタリング手法を導出している.音声合成実験において, 自然性の高い合成音声が得られること, 更に自動学習によりシステムを構築可能であることを認識した.
著者
戸田 智基 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.253, pp.1-6, 2005-08-19

HMMに基づく音声合成方式では, あらかじめ音声パラメータ系列をモデル化するHMMを学習しておき, 合成時には入力テキストに対応するHMMから尤度最大化基準により音声パラメータを生成する.静的・動的特徴量間の明示的な制約条件を導入することで, 適切な遷移を満たすパラメータ系列の生成が可能となり, 不連続感の少ない滑らかで安定した合成音声が得られる.一方で, 音声信号がもつ詳細な特徴は統計処理により失われるため, 生成されるパラメータは過剰に平滑化されたものとなり, 合成音声の肉声感は大きく損なわれる.本稿では, 音響モデリングで失われる特徴量の一つとして, パラメータ系列全体における変動量に着目し, 従来考慮されている静的・動的特徴量に対する尤度のみでなく, 系列内変動に対する尤度も考慮した音声パラメータ生成アルゴリズムを提案する.新たに導入される尤度は, 従来法において顕著にみられる生成パラメータの系列内変動の減少を抑える働きをする.実験的評価結果から, 提案法により合成音声の自然性は大幅に改善されることを示す.