著者
全 炳河 徳田 恵一 北村 正
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.87, no.8, pp.1593-1602, 2004-08-01
被引用文献数
1

近年,連続音声認識システムにおける音響モデルとして,前後の音素環境を考慮した音素コンテクスト依存隠れマルコフモデルが広く利用されている.音素コンテクスト依存隠れマルコフモデルを利用する場合,総モデル数が増加し,システムが非常に多くの自由パラメータを含むことになるため,統計的に信頼できるパラメータを推定することが困難になる.このため,様々なパラメータ共有手法が提案されており,中でも音素決定木に基づく状態共有法は,優れた解決法の一つである.しかし,状態単位の共有構造では特徴ベクトルの全次元に同一の共有構造を構築するため,各特徴量に対し,異なる共有構造を構築できない,適切なパラメータ数を割当てることができない,といった問題点がある.本論文では,記述長最小化基準に基づく次元分割法を導入することにより音素決定木を拡張した,音素・次元決定木を提案する.更に,状態位置に関する分割条件を加え,音素コンテクスト・次元・状態位置を決定木に基づき同時にクラスタリングする手法を提案する.不特定話者連続音声認識実験の結果,提案法は従来の音素決定木に基づく状態共有法と比較して13〜15%誤り率を削減することが示された.
著者
益子 貴史 徳田 恵一 小林 隆夫 今井 聖
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2184-2190, 1996-12-25
被引用文献数
100

隠れマルコフモデル(HMM)からの動的特徴を用いた音声スペクトルパラメータ生成アルゴリズムに基づく規則音声合成システムの新たな枠組みを提案している.本システムで用いるパラメータ生成アルゴリズムでは,HMMで学習した静的,動的特徴の統計情報に従って連続的に遷移するスペクトル系列を生成することができる.規則音声合成にこのアルゴリズムを適用することにより,滑らかで自然性の高い音声を合成できると考えられる.本論文ではこのHMMに基づく規則音声合成システムの枠組みを示し,韻律生成部を除く合成システムを構築した.生成されたスペクトルパラメータを用いて合成した音声の主観評価実験により動的特徴の有効性を示すと共に,合成単位である音素HMMの構成について,音素環境依存性など,いくつかの検討を行っている.
著者
酒向慎司 宮島千代美;徳田恵一 北村正
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.3, pp.719-727, 2004-03-15

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成するうえで重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリングを行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し歌声の合成が可能であることを示す.
著者
南角 吉彦 橋本 佳 徳田 恵一 大浦 圭一郎
出版者
名古屋工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2019-04-01

本研究では従来の隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発を目的とする。「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、現状の深層学習に基づくEnd-to-End音声合成における3つの問題点、1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立、の解決を目指す。
著者
益子 貴史 徳田 恵一 宮崎 昇 小林 隆夫
出版者
Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌. D-2, 情報・システム. 2, パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.J83-D2, no.7, pp.1600-1609, 2000-07-20

隠れマルコフモデル(HMM)に基づいてピッチパターンとスペクトル系列を同時にモデル化及び生成する手法について述べる.ピッチパターンは,連続値をとる有声区間と値をもたない無声区間の時系列として表現されるため,通常のHMMではモデル化することができない.そこで本論文では,多空間上の確率分布に基づくHMM(multi-space probability distribution HMM: MSD-HMM)を適用し,ピッチパラメータとスペクトルパラメータを結合した特徴パラメータを用いてピッチとスペクトルを統一的にモデル化する手法を提案する.また,MSD-HMMにおける決定木に基づくコンテクストクラスタリング手法を導出し,ピッチやスペクトルの変動要因を考慮したモデルの構築手法について述べる.更に,ゆう度最大化基準に基づくパラメータ生成手法を用いることにより,実音声を近似したピッチパターン及びスペクトル系列を生成できることを示す.
著者
山田 知彦 武藤 聡 南角 吉彦 酒向 慎司 徳田 恵一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2009-MUS-80, no.5, pp.1-6, 2009-05-14

HMM に基づく歌声合成は歌い手の特徴を歌声データと楽譜から自動学習し,任意のメロディからその特徴を再現した歌声を合成できる.その際,歌声の音色・発音と音高における歌い手の特徴を,それぞれスペクトルと基本周波数の時間変化として HMM でモデル化している.本稿では,歌唱表現のひとつであるビブラートを音高の周期的な揺らぎと仮定し正弦波でモデル化する.そのパラメータをスペクトル及び基本周波数と同時に HMM でモデル化する.歌声の合成実験では,女性 1 名による童謡 60 曲の歌声データを学習し,主観評価実験によってビブラートモデルの導入による自然性の向上が確認できた.
著者
大浦 圭一郎 中村 和寛 橋本 佳 南角 吉彦 徳田 恵一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.34, pp.1-6, 2019-06-15

本稿では,ニューラルネットワークに基づく音声ボコーダにおいて,周期信号と非周期信号を入力とする音声生成の枠組みを提案する.近年,ニューラルネットワークを用いて音声波形を直接モデル化する手法として WaveNet [1] が提案された.WaveNet は音声波形を高精度にモデル化することができ,自然な音声を直接生成することができるため,特に音声ボコーダ [2] として様々な研究で利用されている [3],[4],[5].しかし,過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持ち,合成時に並列演算ができないことから,実時間で合成できない問題があった.また,WaveNet を学習する際のデータベースに無い音高の再現ができない問題や,補助特徴量として指定したピッチ情報の音高を再現しないことがある問題があった.これらの問題に対し,本稿では明示的に周期信号と非周期信号の列を入力として用い,対応する音声サンプルの列を一度に生成する手法を提案する.提案手法を用いることで,実時間より高速に音声を生成できること,および,学習データの範囲外のピッチを持つ音声波形を生成できることを確認した.また,自然性に関する主観評価実験を行い,WaveNet と比較して合成音声品質の向上を確認した.
著者
大浦圭一郎 間瀬 絢美 山田 知彦 徳田 恵一 後藤 真孝
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-86, no.1, pp.1-8, 2010-07-21

近年,コンピュータによる歌声合成が注目を集めている.中でも隠れマルコフモデル(hidden Markov model; HMM)に基づく歌声合成では,歌い手の特徴を歌声データと対応する楽譜から自動的に学習することができる.2009年12月,無料のオンラインサービス「HMM歌声合成システム: Sinsy」を開始した.ユーザーは楽譜をウェブサイトにアップロードすることで,任意の楽譜に対応した歌声を合成することができる.但し,Sinsyの歌声モデルには70曲で学習した特定話者モデルを用いており,新しい歌い手の歌声モデル追加の際の収録コストが高くなる問題があった.本稿ではSinsyのシステム構成について述べるとともに,話者適応手法により少量のデータから所望の歌い手の特徴を再現した歌声を合成することを検討する.
著者
才野 慶二郎 大浦 圭一郎 橘 誠 剣持 秀紀 徳田 恵一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-94, no.7, pp.1-6, 2012-01-27

ラップのような短時間のうちに音高などの特徴が大きく変動するスタイルの歌い方は,それを適切に表現するための記譜法が確立されておらず,従来のように五線譜基づく合成の仕組みではユーザが直観的にそのスタイルの歌声を再現することが難しかった.本稿では,ラップスタイルの歌唱のための記譜法を定義し,それを用いて HMM 歌声合成の枠組みでラップスタイルの歌声合成を行った.その結果得られた合成音声はラップ特有のグリッサンド技法によるピッチ変動の現象を含むものになっていることが確認された.また,合成時に得られる対数基本周波数系列を素片接続型の歌声合成器に与えてラップスタイルの歌声を合成することも試みた.
著者
河井 恒 戸田 智基 山岸 順一 平井 俊男 倪 晋富 西澤 信行 津崎 実 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2688-2698, 2006-12-01
参考文献数
43
被引用文献数
15

本論文では,ATR音声言語コミュニケーション研究所が開発した新しい音声合成システムXIMERAについて述べる.XIMERAは,これまでATRで開発された音声合成システムυ-Talk及びCHATRと同様,コーパスベース方式を採用している.XIMERAの特長は,(1)大規模な音声コーパス(日本語男声110時間,日本語女声59時間,中国語女声20時間,それぞれ単一話者),(2)HMMを用いた韻律パラメータのモデル化及び生成,(3)知覚実験に基づく素片選択コスト関数の最適化,である.XIMERAの性能を評価するため,市販の音声合成システム10製品と合成音声の自然性を比較したところ,XIMERAが他のシステムより優れていることが示された.
著者
全 炳河 大浦圭一郎 能勢 隆 山岸 順一 酒向慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.301-306, 2007-12-21

近年,隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
徳田 恵一 益子 貴史 小林 隆夫 今井 聖
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.53, no.3, pp.192-200, 1997-03-01 (Released:2017-06-02)
被引用文献数
2

動的特徴 (音声のデルタ及びデルタデルタパラメータを含む混合連続分布HMMから音声パラメータ列を生成するための高速アルゴリズムを提案する。ここでは, 尤度最大の意味で最適な音声パラメータ列を生成することを考え, この問題を現実的な演算量で解くため, 適応フィルタリングにおけるRLSアルゴリズムと類似の手法を用いて高速アルゴリズムを導出した。また, 提案アルゴリズムにより, 静的及び動的特徴の統計情報(平均及び共分散)を反映した音声パラメータ列の生成が可能となることを例によって示すと共に, 提案アルゴリズムの音声の規則合成への応用について考察を加えている。
著者
徳田 恵一 小林 隆夫 徳田 篤洋 今井 聖
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 A (ISSN:03736091)
巻号頁・発行日
vol.J71-A, no.2, pp.260-267, 1988-02-25

任意の対数振幅・位相をもつ希望特性は,複素ケプストラムの性質を用いることにより,最大・最小位相成分に分離することができる.このとき,最大位相あるいは最小位相の対数振幅と位相は,ヒルベルト変換により一意に関係づけられるので,振幅と位相の同時近似問題は,最大および最小位相成分の振幅近似問題に置き換えられる.本論文では,最大位相成分を逆線形予測法により,最小位相成分を極零分離法により,それぞれ近似する方法について述べ,更に振幅あるいは位相のいずれかに着目して,最大・最小位相成分の近似を交互に繰り返すことにより,特性を改善する方法を提案している.本方法は,振幅あるいは位相のどちらかに厳しい近似特性が要求されたとき,特に有効となる.フィルタ係数の決定は,FFTおよび線形予測法に基づいているため,非線形最適化法に比べ高速である.
著者
大浦圭一郎 南角吉彦 徳田恵一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-99, no.52, pp.1-3, 2013-05-04

近年,音声合成関連の研究分野では,統計的パラメトリック音声合成と呼ばれる統計モデルに基づいた手法が広く研究されている.この中でも,統計モデルとして隠れマルコフモデル(Hidden Markov Model; HMM)を用いるHMM音声合成方式は,理論的に整理されたアルゴリズムと利用しやすいソフトウェアツールが公開されており,広く普及してきている.従来の波形接続方式と比較するとHMM音声合成方式は,発話の癖の再現や感情音声合成などの多様性,さらにそのフットプリントの小ささや言語依存性の低さなど,多くの優位性を持っている.一方,歌声合成関連の研究分野では従来の波形接続方式が広く用いられているものの,HMM音声合成方式も徐々に使われてきている.このような流れの中,我々はSinsyと名付けたHMM歌声合成システムを構築し,そのオンラインデモを公開した.本稿ではHMM歌声合成方式を紹介し,現状のSinsyのサービスや,今後の展望等を述べる.
著者
才野 慶二郎 大浦 圭一郎 橘 誠 剣持 秀紀 徳田 恵一
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.7, pp.1-6, 2012-01-27

ラップのような短時間のうちに音高などの特徴が大きく変動するスタイルの歌い方は,それを適切に表現するための記譜法が確立されておらず,従来のように五線譜基づく合成の仕組みではユーザが直観的にそのスタイルの歌声を再現することが難しかった.本稿では,ラップスタイルの歌唱のための記譜法を定義し,それを用いて HMM 歌声合成の枠組みでラップスタイルの歌声合成を行った.その結果得られた合成音声はラップ特有のグリッサンド技法によるピッチ変動の現象を含むものになっていることが確認された.また,合成時に得られる対数基本周波数系列を素片接続型の歌声合成器に与えてラップスタイルの歌声を合成することも試みた.
著者
徳田 恵一
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.67, no.1, pp.17-22, 2010-12-25

本解説では,統計的パラメトリック音声合成の基礎技術について簡単にまとめると共に,最近の動向について概観する。特に,統計モデルとして,隠れマルコフモデル(hidden Markov model;HMM)を用いた方式は,効率的な学習アルゴリズムが利用できることから,広く利用されており,本解説でもHMMを用いる方式を中心に述べる。また,ここ10年ほどの間,主流な手法として利用されてきた単位選択型音声合成との関係について対比しながら,近い将来に期待される技術開発の方向性についても述べる。
著者
徳田恵一 峯松信明 戸田智基 額賀信尾 平井啓之
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.7, pp.1-6, 2014-01-24

情報処理研究会音声言語情報処理研究会 (SIG-SLP) 第 100 回記念シンポジウムにおいて,音声合成研究の流れを俯瞰し,今後の目標・応用や方法論を探ることを目的としたテーマセッションを実施する.本稿は,そこでの発表内容の概要を,登壇者がそれぞれ執筆したものである.
著者
益子 貴史 小林 隆夫 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.64, pp.33-38, 1997-05-22
被引用文献数
8 2

隠れマルコフモデル(HMM)に基づいて,任意のテキストからそれに対応する滑らかな唇形状の動きを生成する新たな手法を提案している. 提案手法では,音素や音節等,各音声単位に対応する唇形状の動きをHMMによりモデル化している. 画像生成時には,与えられたテキストに対応する文HMMを音声単位HMMを接続することにより構成し,得られた文HMMから尤度最大化基準により,唇形状の動き表す最適なパラメータ系列を求めている. 本手法の特徴は,既に提案したHMMに基づく音声合成法と同一の枠組で画像の生成が可能な点にあり,音声と画像で同一の音声単位を用いて統一的にモデル化を行なえば,音声・画像の同時生成が容易に実現できる. 本論文では,唇動画像生成システムの構成を示すとともに,実際に小規模な実験的システムを構築し,得られた画像が自然発声に近い滑らかな唇の動きを表現可能なことを示す.