著者
能勢 隆 山岸 順一 小林 隆夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.572, pp.61-66, 2006-01-20
参考文献数
8

本論文では, 隠れマルコフモデル(HMM)に基づく音声合成システムにおいて, 複数の発話様式または感情表現の表出や強調の度合を制御することを目的に, 重回帰モデルを用いた音声のスタイル制御法を提案する. 従来の重回帰HMMを用いた手法では, 音声の重要な特徴の一つである音韻継続長を担う明示的なパラメータが存在しないため, 各発話様式・感情表現を個別にモデル化した場合に比べ, 再現性が低下するという問題があった. そこで提案法では, HMMに状態継続長分布を組み込んだ隠れマルコフモデル(HSMM)を用いることで音韻継続長を明示的な制御の対象としている. 主観評価試験により, 提案法は各発話様式・感情表現の再現性だけでなく, これらの表出・強調度合の制御においても, 従来の重回帰HMMを用いた手法より優れていることを示す. また, 発話様式・感情表現の制御法の一つである補間手法との比較や, 重回帰HSMMで用いるスタイル空間の違いが合成音声に与える影響についても検討を行っている.
著者
高木 信二 倉田 岳人 郡山 知樹 塩田 さやか 鈴木 雅之 玉森 聡 俵 直弘 中鹿 亘 福田 隆 増村 亮 森勢 将雅 山岸 順一 山本 克彦
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-120, no.14, pp.1-9, 2018-02-13

2017 年 8 月 20 日から 8 月 24 日にかけ,ストックホルム ・ スウェーデンで Interspeech 2017 が開催された.Interspeech は音声言語情報処理の分野におけるトップカンファレンスと位置付けられており,今後の本分野の動向に大きく影響を与えている.本稿では,本会議における研究動向,注目すべき発表について報告する.
著者
山岸 順一
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.57, no.12, pp.882-889, 2015-03-01 (Released:2015-03-01)
参考文献数
32
被引用文献数
3 4

本稿では,統計的音声合成技術および声質変換技術の医療・福祉応用に関し,最先端研究成果をわかりやすく紹介する。筋萎縮性側索硬化症(ALS)等により発声機能を失いつつある障がい者の声をコンピューターに模倣させ,障がい者本人の声で音声出力を行う音声合成技術や,電気式人工喉頭を利用した喉頭摘出者や構音障がい者の声を自然で聞き取りやすい音声へリアルタイムで変換する技術等,新たな研究が音声情報処理分野において近年積極的に行われ,音声の障がい者のQOL向上に貢献すると考えられる顕著な研究成果も存在する。喉頭摘出者およびALS患者によるケーススタディーを紹介した後,現在の研究課題についても概説する。
著者
山岸 順一 Cooper Erica
出版者
国立情報学研究所
雑誌
挑戦的研究(萌芽)
巻号頁・発行日
2021-07-09

我々は伝統話芸である落語の実演データから深層学習モデルを学習、あたかもプロの噺家の様に、噺を読み上げる落語音声合成システムを最先端音声合成技術に基づき構築した。従来の音声対話システムとは目的が全く異なり、聞き手を楽しませるAI噺家の実現を目標としている。本課題では 、長期的音響情報および非言語情報の明示的モデル化により合成音声の表現力を向上させ、 ニューラル言語モデルによる噺の自動生成に取り組む。
著者
河井 恒 戸田 智基 山岸 順一 平井 俊男 倪 晋富 西澤 信行 津崎 実 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2688-2698, 2006-12-01
参考文献数
43
被引用文献数
15

本論文では,ATR音声言語コミュニケーション研究所が開発した新しい音声合成システムXIMERAについて述べる.XIMERAは,これまでATRで開発された音声合成システムυ-Talk及びCHATRと同様,コーパスベース方式を採用している.XIMERAの特長は,(1)大規模な音声コーパス(日本語男声110時間,日本語女声59時間,中国語女声20時間,それぞれ単一話者),(2)HMMを用いた韻律パラメータのモデル化及び生成,(3)知覚実験に基づく素片選択コスト関数の最適化,である.XIMERAの性能を評価するため,市販の音声合成システム10製品と合成音声の自然性を比較したところ,XIMERAが他のシステムより優れていることが示された.
著者
全 炳河 大浦圭一郎 能勢 隆 山岸 順一 酒向慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.301-306, 2007-12-21

近年,隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
高木 信二 Sangjin Kim 亀岡 弘和 山岸 順一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.21, pp.1-6, 2016-12-13

多くの統計的パラメトリック音声合成システムでは,高品質ボコーダを用い,音声波形を構築する.その際,ソース ・ フィルタモデルに基づくボコーダが利用されることが多く,言語特徴量からメルケプストラム,F0 といった音響特徴量を予測し,ボコーダによる音声波形生成が行われる.しかし,ボコーダを用いたことに起因する合成音声の自然性の低下が常に問題となっており,これまで様々な研究が報告されている.しかし,ソース ・ フィルタモデルに基づいている限り,この問題を完全に解決することは容易ではない.そこで本研究では,ボコーダを用いない音声合成システム構築することを考える.具体的には,統計的パラメトリック音声合成において,振幅スペクトルからの位相復元,逆短時間フーリエ変換,および重加算法 (OLA) に基づき波形を生成することについて検討する.今回提案する音声合成の枠組みでは,まず,調波構造を含む振幅スペクトルの予測を DNN 音響モデルにより行い,次に,予測された振幅スペクトルから Griffin / Lim 法により位相を復元することで,音声波形の生成を行う.主観評価実験により,高品質ボコーダを用いた DNN 音声合成システムと提案システムの比較を行った結果,提案法ではボコーダに基づく合成音声特有のバジー感が無い合成音声の生成が可能であることを確認できた.
著者
高木 信二 山岸 順一
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2015, no.2, pp.1-6, 2015-02-20

近年,Deep Neural Network (DNN) を用いた手法が様々な分野で高い性能を示しており,統計的音声合成においても DNN を用いた手法が注目を集め,盛んに研究されている.従来,統計的音声合成システムでは音声特徴量の 1 つであるスペクトルは,低次元のスペクトルパラメータ (例えば,メルケプストラムや LSP) によって表現され,隠れマルコフモデル (Hidden Markov Model; HMM) や DNN によってモデル化される.本論文では,振幅スペクトルの微細な特徴を捉えるため,DNN の枠組みを用いて振幅スペクトルを直接モデル化することを検討する.本モデル化手法では,スペクトルパラメータ抽出器である Deep Auto-encoder と音響モデルのための DNN を連結し,テキストから得られた言語特徴量から振幅スペクトルを直接合成する巨大な DNN を構築する.分析再合成実験による Deep Auto-encoder を用いて抽出された低次元特徴量の評価,及び,テキスト音声合成実験による提案スペクトルモデリングの評価を行った.
著者
全 炳河 大浦 圭一郎 能勢 隆 山岸 順一 酒向 慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.405, pp.301-306, 2007-12-13

近年,隠れマルコフモデル(HMM)に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存HMMにより同時にモデル化される.音声合成時は,合成したい文章に対応するHMMからの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002年より我々は,HMMに基づく音声合成のための研究・開発ツール「HMM音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
川島 啓吾 橘 誠 山岸 順一 小林 隆夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.496, pp.151-156, 2005-12-15

本論文では, 多空間上の確率分布(MSD)に基づくHMMを用いた音声の感情・発話様式の識別について検討している.MSD-HMMにより音声のスペクトル情報と基本周波数(F0)の同時モデル化を行い, 複数の話者の平静調音声で学習されたユニバーサルバックグラウンドモデル(UBM)を目標話者・スタイルの少量の文章によりモデル適応し, 話者及びスタイルの同時適応を行ったモデルを用いて識別を行っている.まずMSD-HMMを用いて特徴量にF0を含めることで識別率が改善することを示し, 次に, 適応時の初期モデルとしてUBMを用いる場合と, 目標話者の読上げ音声から作成した話者依存モデルを使用する場合の比較を行い, UBMを用いて話者とスタイルの同時適応を行った場合においても, 話者依存モデルと同等の性能が得られることを示す.最後に, ナレーション経験のない話者の音声を用いた評価実験を行った結果を示す.