著者
虫鹿 弘二 中村 和寛 橋本 佳 大浦 圭一郎 南角 吉彦 徳田 恵一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. [音楽情報科学]
巻号頁・発行日
vol.2015, no.13, pp.1-6, 2015-02-23

隠れマルコフモデル (HMM) に基づく歌声合成システムは,あらかじめ用意された歌声データから統計モデルを学習し,任意の歌声を合成する.HMM 歌声合成の性能は学習データに強く依存するため,高品質な歌声を合成するためには高品質な歌声データベースが必要になる.しかし,実際のデータベースには,歌い間違いやノイズなどの誤りが含まれていることが多い.特に,これからは音声合成の分野でも,インターネット上の大量のデータを学習に有効活用するという流れが加速していくと考えられ,そのような誤りを多く含むデータから高精度なモデルを学習する手法が必要である.そこで本稿では,学習データ内の誤りを局所的に除外することによる誤りに頑健なモデルの学習手法を提案し,主観評価実験により提案手法の有効性を評価する.
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
徳田 恵一 大浦 圭一郎
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.1, pp.1-6, 2012-01-27

本稿では,HMM 音声合成の手法に基づいた歌声合成システム “Sinsy” について述べる.本システムは,歌声データと対応する歌詞付きの楽譜から,モデルパラメータを自動学習するものであり,学習後は,歌詞付きの楽譜を与えることにより,歌声データ提供者の声質,歌い方等を再現する形で,任意の曲を自動で歌わせることができる.まずはじめに HMM 音声合成について概説し,それがどのように歌声合成に拡張されるかについて述べる.また,2009 年 12 月に開設されたオンラインデモについて触れた上で,今後の技術開発に関してどのような展開が期待されるかについて議論する.
著者
全 炳河 大浦 圭一郎 能勢 隆 山岸 順一 酒向 慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.405, pp.301-306, 2007-12-13

近年,隠れマルコフモデル(HMM)に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存HMMにより同時にモデル化される.音声合成時は,合成したい文章に対応するHMMからの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002年より我々は,HMMに基づく音声合成のための研究・開発ツール「HMM音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
徳田 恵一
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.45, no.10, pp.1005-1011, 2004-10-15
被引用文献数
5

音声認識の分野では,時系列の統計モデルである隠れマルコフモデル(Hidden Markov Model: 以下HMM)が音声パラメータ系列のモデル化手法として有効なことが知られ,実用的なシステムにおいても広く用いられている.本稿では,HMMの定義および関連するアルゴリズムについて,概説した上で,音声認識および音声合成におけるHMMの利用について述べる.また,HMMの限界を指摘した上で,次世代音声モデルとして期待される手法についても触れる.
著者
熊木 慶介 南角 吉彦 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.110, no.97, pp.45-50, 2010-06-17

画像認識システムでは,認識対象の位置,大きさ,回転等の幾何学的な変動に対応する必要がある.これまでに,このような画像の変動に対する正規化が組み込まれた確率モデルとして分離型格子HMMが提案されている.分離型格子HMMでは,横方向,縦方向の2本の状態系列を保持することにより,認識対象の位置や大きさの変動に対応することが可能である.しかし,このモデルでは回転や歪みには対応することができない.そこで本稿では,画像の各行,各列毎に個別の状態系列を保持するモデルとして拡張分離型格子HMMを提案する.状態系列を増やすことにより,複雑な状態アライメントが可能となるため認識対象の回転や歪みに対応できることが期待される.さらに,変分EMアルゴリズムに基づく学習アルゴリズムを導出し,顔画像認識実験により提案法の有効性を示す.
著者
北村 正 徳田 恵一 後藤 富朗 宮島 千代美
出版者
名古屋工業大学
雑誌
基盤研究(C)
巻号頁・発行日
2003

今年度は、手話の手座標・形状情報の統合に基づく認識法の検討、アクティブ画像探索法に基づく手の高速追跡法、基本動作モデルの検討を行った。以下にそれぞれについて述べる。1.国立身体障害者リハビリテーションセンター研究所開発の日本手話データーベース(DB)を利用した。当該DBの中から動作数の多い手話動作者、出現頻度の高い18単語を選び学習・認識の対象とした。手話の特徴パラメータとして、手の動作と形状情報を利用しているが,それらを統合する方法(初期統合法、結果統合法)を検討した。動作:形状に7:3の重み付けをした統合により、形状情報単独に比べて誤り改善率が12.5%と向上し、82.8%の単語認識率が得られ、その有効性が示された。手話単語モデル作成には隠れマルコフモデルを用いている。2.手の座標抽出の実時間処理を目指して、アクティブ画像探索法に基づく方法を検討した。提案法は、過去の手座標から現在の探索範囲を予測し、探索範囲内の動作領域と肌色領域の情報から手座標を高速抽出する方法である。RWCPの手話単語DBに対して、肌色情報のベクトル量子化に基づき手の座標を抽出する従来法と比較を行い、4倍高速に抽出可能であることを確認した。3.前後の基本動作情報に基づくコンテキストクラスタリングを用いる基本動作モデル学習法を提案した。RWCPの手話単語DBを用いたが、まず手話単語を基本動作のラベル付けを行い、コンテキストクラスタリングに基づいて基本動作モデルを作成し、更に連結学習により各モデルを再学習する。得られた基本動作モデルの接続により任意の単語モデルを作成する。研究では、33単語モデルの認識実験を学習データに対して行ったが、約93%の認識率が得られ、提案法の有効性が確認できた。今後は,テストデータに対して有効性を検討していく予定である。
著者
田村 正統 益子 貴史 徳田 恵一 小林 隆夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.85, no.4, pp.545-553, 2002-04-01
被引用文献数
19

本論文では,不特定話者の音声合成単位である"平均声"モデルから,任意話者の特徴をもつ音声を合成する手法を提案する.提案手法は,HMMに基づくテキスト音声合成システムに基づいている.HMMに基づく音声合成システムでは,多空間上の確率分布(MSD)に基づくHMMを用いてスペクトル及びピッチパラメータを同時にモデル化しており,HMMのパラメータを適切に変換することにより合成音声の声質や韻律特徴を変換できる.本論文では,MLLRアルゴリズムをMSD-HMMに拡張し,ピッチ及びスペクトルモデルの話者適応を行うことにより,目標話者の少量の文章を用いて,声質のみでなく韻律情報も適応できることを示す.主観評価試験により,ピッチ及びスペクトルを同時に話者適応することにより,平均声モデルを数文章で適応したモデルから,特定話者モデルからの合成音声に近い音声を合成できることを示した.
著者
徳田 恵一 益子 貴史 宮崎 昇 小林 隆夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.7, pp.1579-1589, 2000-07-25
被引用文献数
65

HMM(hidden Markov model)による時系列の統計的モデル化手法は, 特に音声認識における音声スペクトル列の統計的モデル化手法として広く成功を収めている.HMMは, 離散的なシンボル列を扱う離散分布HMMと、連続値をもったベクトル列を扱う連続分布HMMとに大別されるが, 実際の観測系列には, 離散的なシンボルと連続値が時間的に混在したものがあり, 従来のHMMでこのような観測系列をそのまま取り扱うことはできない.音声のピッチパターンは, このような系列の例である.この問題を解決するため, 本論文では, 可変次元の多空間上における確率分布に基づいたHMMを新たに定義し, 拡張されたHMMのモデルパラメータの再推定アルゴリズムを与えている.拡張されたHMMは, 離散分布HMM, 混合連続分布HMMを特別な場合として含み, 更に離散シンボルと連続値が時間的に混合した観測系列をモデル化することができる.
著者
大浦 圭一郎 全 炳河 南角 吉彦 李 晃伸 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.338, pp.215-220, 2008-12-02

本報告では隠れマルコフモデル(Hidden Markov Model; HMM)に基づく音声合成システムにおける共分散パラメータの共有について述べる.近年,音声合成システムへの需要が高まっており,HMMに基づいた音声合成システムでは音声波形の断片をそのまま利用するのではなく,音声波形の特徴をHMMによりモデル化し,HMMのモデルパラメータを合成システムに保持するため,同程度の音質の波形接続法式に比べてフットプリントが小さい利点がある.中でも組み込み向けのシステムには携帯電話,PDA,カーナビ,情報家電,ゲーム機等への用途があるが,必要なCPU,メモリ等が制限されることが多く,更なるフットプリントの縮小が必要である.HMMに基づく音声合成システムにコンテキスト依存モデルを用いることで高精度な音響モデルを構築することができ,決定木に基づくコンテキストクラスタリングを用いて状態共有構造を構築する際に,組み込み用途向けに決定木のサイズを小さくすることも考えられるが,音質が劣化する.本報告では,平均に比べて共分散が音質に与える影響が小さいことに注目し,全てのパラメータの共分散を共有する手法を提案する.このパラメータ共有を仮定した上でのコンテキストクラスタリングを行い,主観評価実験により,パラメータ数を大幅に削減するのみならず,若干の品質改善を達成した.