著者
能勢 隆
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J100-D, no.4, pp.556-569, 2017-04-01

HMM音声合成に代表される統計モデルに基づくテキスト音声合成は,モデルがコンパクトであるにもかかわらず,従来の波形接続方式に比べて少ない音声データで音声に含まれる話者性や感情表現・発話様式(スタイル)を合成音声に反映することができる手法として急速に利用が広まっている.本論文では,HMM音声合成を中心とし,話者やスタイル,声質を多様化する手法についてそのアイデアや実験結果なども含めて解説を行う.HMM音声合成ではスペクトルや韻律特徴量がモデル内の各状態の分布パラメータとして表現されるため,モデルパラメータの操作,モデルの拡張が容易であり,様々な多様化手法が提案されている.代表的な話者の多様化手法として話者適応,話者補間,話者強調について,またスタイルの多様化手法としてスタイルモデリング,スタイル適応,スタイル補間,スタイル制御,スタイル変換について基本的な枠組を説明する.更に声質の制御法や話し言葉音声についても概説し,今後の課題や展望について述べる.
著者
能勢 隆 山岸 順一 小林 隆夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.572, pp.61-66, 2006-01-20
参考文献数
8

本論文では, 隠れマルコフモデル(HMM)に基づく音声合成システムにおいて, 複数の発話様式または感情表現の表出や強調の度合を制御することを目的に, 重回帰モデルを用いた音声のスタイル制御法を提案する. 従来の重回帰HMMを用いた手法では, 音声の重要な特徴の一つである音韻継続長を担う明示的なパラメータが存在しないため, 各発話様式・感情表現を個別にモデル化した場合に比べ, 再現性が低下するという問題があった. そこで提案法では, HMMに状態継続長分布を組み込んだ隠れマルコフモデル(HSMM)を用いることで音韻継続長を明示的な制御の対象としている. 主観評価試験により, 提案法は各発話様式・感情表現の再現性だけでなく, これらの表出・強調度合の制御においても, 従来の重回帰HMMを用いた手法より優れていることを示す. また, 発話様式・感情表現の制御法の一つである補間手法との比較や, 重回帰HSMMで用いるスタイル空間の違いが合成音声に与える影響についても検討を行っている.
著者
森勢 将雅 能勢 隆
出版者
山梨大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2016-04-01

VOCALOIDを代表とする歌声合成ソフトウェアが広く一般に普及するにつれ,計算機による「人間的」な歌唱を目指す数多くの取り組みがなされてきた.一方,Auto-Tuneなどのソフトウェアを用いた「非人間的」な歌唱もコンテンツとして利用されている.ここでは,コンテンツとしての自然さと非人間性を両立する歌声が存在するか確認するため,人間性を制御する加工法について研究に取り組んだ.実験の結果,提案法により,人間の歌声が有する揺らぎ成分を除去するという従来のアプローチだけではなく,誇張させた場合でも一定の自然さを保ちつつ非人間的な歌声を生成できることを確認した.
著者
前田 隆子 田中 俊行 大城 等 船川 一彦 能勢 隆之 今井 昭二 林 康久
出版者
The Japanese Society for Hygiene
雑誌
日本衛生学雑誌 (ISSN:00215082)
巻号頁・発行日
vol.45, no.3, pp.781-787, 1990-08-15 (Released:2009-02-17)
参考文献数
21
被引用文献数
2 2

This study reports the contents of Zn and Cu in the breast milk and serum of postpartum mothers, 17 primiparas and 20 multiparas, at one week and at one month after delivery.Results were as follows.1. The mean content of Zn in the breast milk was 5.44μg/ml at 1 week after delivery, and it decreased significantly (p<0.01) to 2.73μg/ml at 1 month after delivery.2. The mean content of Zn in serum was 0.66μg/ml at 1 week, and it increased significantly (p<0.01) to 0.84μg/ml, close to the normal level, at 1 month.3. The milk Zn level at 1 week after delivery was about 8 times as high as the Zn in serum. There was a significant (p<0.05) negative correlation in Zn contents between milk and serum at 1 week after delivery, and there was no significant correlation in Zn contents between milk and serum at 1 month after delivery.4. The mean content of Cu in breast milk was 0.55μg/ml at 1 week after delivery, and it decreased to 0.44μg/ml at 1 month after delivery.5. The mean content of Cu in serum was 2.14μg/ml at 1 week after delivery, and it decreased significantly (p<0.01) to 1.35μg/ml, close to the normal level, at 1 month after delivery.6. Concerning the Cu contents of milk and serum, there was not a significant correlation at 1 week after delivery, but a significant (p<0.05) positive correlation was found at 1 month after delivery.
著者
加瀬 嵩人 能勢 隆 千葉 祐弥 伊藤 彰則
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 A (ISSN:09135707)
巻号頁・発行日
vol.J99-A, no.1, pp.25-35, 2016-01-01

近年,非タスク指向型の音声対話システムへの需要が拡大しており,様々な研究がされている.それらほとんどの研究は言語的な観点から適切な応答の生成を目指したものである.一方で人間同士の会話においては,感情表現や発話様式などのパラ言語情報を効果的に利用することにより,対話を円滑に進めることができると考えられる.そこで我々はシステムの応答の内容ではなく,応答の仕方に着目し,感情音声合成を対話システムに用いることを試みる.本研究ではまず,適切な感情付与を人手により与えた場合に実際に対話システムの質が向上するかを複数のシナリオを作成して主観基準により評価する.次に,感情付与を自動化するために,システム発話に応じた付与とユーザ発話に協調した付与の二つの手法について検討を行う.評価結果から,感情を自動付与することで対話におけるユーザの主観評価スコアが向上すること,またユーザ発話に協調した感情付与がより効果的であることを示す.
著者
鈴木 直人 廣井 富 千葉 祐弥 能勢 隆 伊藤 彰則
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.56, no.11, pp.2177-2189, 2015-11-15

本研究では,音声を用いた英会話の学習が可能なコンピュータ利用言語学習(Computer-Assisted Language Learning, CALL)システムを提案する.特に,英会話学習における学習者の応答タイミングに着目する.一般的に学習段階において応答タイミングは適切なものに比べ遅くなりがちであるが,システムとの英会話では応答タイミングを意識しにくい.そこで対話相手としてCGキャラクタを導入し,応答を要求する表現であるタイムプレッシャー表現を付加する練習方法を提案する.CGキャラクタの有無,タイムプレッシャー表現の有無のほかに,短期間での繰返し練習,および期間をおいた練習を通じて,提案手法の有効性について論じる.
著者
森 大毅 有本 泰子 能勢 隆 永田 智洋
出版者
宇都宮大学
雑誌
基盤研究(B)
巻号頁・発行日
2014-04-01

(1) 叫び声を誘発しやすいオンラインゲームをプレイする状況のコーパスを開発した。このコーパスには既存コーパスの10倍以上の頻度で叫び声が含まれている。叫び声の音響分析により、通常語彙や感動詞との音響的特性の違いを明らかにした。(2) 感情表出系感動詞の形態を分類し、多様な形態を持つ「あ」を合成した。合成音声を用いた知覚実験により、形態とパラ言語情報との関係を明らかにした。(3) 自然対話コーパスから笑い声の構成要素の変動要因を明らかにするとともに、コーパスベース音声合成を応用した多様な笑い声合成を実現した。知覚実験により、定義した変動要因を考慮することにより自然性が向上することがわかった。
著者
田口 亮 岩橋 直人 能勢 隆 船越 孝太郎 中野 幹生
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第23回全国大会(2009)
巻号頁・発行日
pp.1F2OS72, 2009 (Released:2018-07-30)

本稿では,単語の知識を持たないロボットが,人の自由な発話から物や場所の名前を学習する手法を提案する.初期の単語候補は,学習データの音素認識結果から生成する.この単語候補を用いて単語認識と意味・文法の学習を行い,統計的モデル選択の基準を元に,音響的,文法的,意味的に不要な単語を削除・連結する.そして再び単語認識を行う.これを繰り返すことで,単語の正しい音素系列と意味が獲得される.
著者
全 炳河 大浦圭一郎 能勢 隆 山岸 順一 酒向慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2007, no.129(2007-SLP-069), pp.301-306, 2007-12-21

近年,隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
高橋 遼太 能勢 隆 伊藤 彰則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理
巻号頁・発行日
vol.2015, no.1, pp.1-6, 2015-05-18

本論文では,従来の HMM 音声合成において曖昧であったアクセントラベリング基準について検討を行い,合成音声への影響を調べる.具体的には,アクセント型の表現およびアクセント句境界の基準について検討する.アクセント型については,尾高型が 0 型とモーラ長型の 2 通りの表現があることに着目し,それらを用いた場合に合成音声の F0 がどのような影響を受けるかについて客観評価を行う.また,2 段階クラスタリングを用いる効果についても検証する.アクセント句境界については,アクセント句によっては 0 型と 1 型の 2 つのアクセント句で表現する場合と,それらを結合し 1 つのアクセント句として表現する場合があり,これらの違いが合成音声に与える影響を調べる.またこれらの評価において,日本語アクセントの高低の誤りを客観的指標として導入し,この指標の有効性について分析を行う.
著者
齋藤 優貴 能勢 隆 伊藤 彰則
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J99-D, no.11, pp.1112-1115, 2016-11-01

テレビ電話において話者(元話者)の顔画像の個人性を別の話者(目標話者)のものに変換する手法を提案する.Kinectにより顔の部位の形状を表すAnimation Unitパラメータを取得し,輝度値への変換をDNNを用いて行いその評価を行った.
著者
中野 幹生 能勢 隆 田口 亮 水谷 了 中村 友昭 船越 孝太郎 長谷川 雄二 鳥井 豊隆 岩橋 直人 長井 隆行
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.23, 2009

発話と画像情報を入力として,物の名前を覚えるロボットが研究されているが, 名前を覚えさせるモードをあらかじめ設定しておかなくてはならなかったり, 名前を覚えさせる発話のパタンが決まっていたりした.本稿では,さまざまな ドメインの対話を行うことができ,対話の途中で物の名前を教示する発話を聞 くと学習を行うことができるロボットのアーキテクチャとその実装について述 べる.
著者
金川 裕紀 能勢 隆 小林 隆夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.111, no.364, pp.191-196, 2011-12-12
参考文献数
22

本論文では隠れマルコフモデル(HMM)に基づく音声合成において,目標話者の読上げスタイルの音声のみから異なる目標スタイルの音声を生成する手法を提案する.従来,読上げスタイルモデルから少量の目標スタイル音声を用いてスタイル適応を行うことにより目標スタイルの任意の文章を合成する手法が提案されているが,目標スタイルの音声が得られない場合にはこの手法を利用することはできない.提案法では,あらかじめ複数の話者により学習された読上げスタイルモデルに対し,同じ話者による目標スタイルへのスタイル変換を線形変換により表現する.これにより得られる変換行列は特定の話者に依存しない不特定話者のスタイル変換を表すため,これを目標話者の読上げスタイルモデルに適用することで目標話者の目標スタイル音声が利用できない場合についてもスタイル音声の合成が可能となる.評価実験では変換後の合成音声について話者性,スタイル再現性および自然性の3つの観点から提案法の有効性を検討する.
著者
郡山 知樹 能勢 隆 小林 隆夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.111, no.364, pp.185-190, 2011-12-12
参考文献数
14

本稿ではHMM音声合成において話し言葉音声のF0パタンを効率的にモデル化するための手法として韻律イベントHMMを提案する.韻律イベントHMMではHMMの単位として,従来の音素の代わりにアクセントによるピッチの下降や句末境界音調(BPM)によるピッチの上昇などの韻律イベントの部分区間を使用する.韻律イベントはF0の変動と密接に結びついている上に音素に比べ発生頻度が低いため,韻律イベントに基づく単位を使用することでF0モデルのパラメータが効率的に表現され,その結果としてモデルパラメータの削減が期待される,対話音声に対して客観および主観評価実験を行い,合成音声の品質を保ったままモデルパラメータ数が大きく削減可能であることを確認した.
著者
全 炳河 大浦 圭一郎 能勢 隆 山岸 順一 酒向 慎司 戸田 智基 益子 貴史 ブラック アラン 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.107, no.405, pp.301-306, 2007-12-13

近年,隠れマルコフモデル(HMM)に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存HMMにより同時にモデル化される.音声合成時は,合成したい文章に対応するHMMからの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002年より我々は,HMMに基づく音声合成のための研究・開発ツール「HMM音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
著者
田口 亮 岩橋 直人 船越 孝太郎 中野 幹生 能勢 隆 新田 恒雄
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.4, pp.549-559, 2010 (Released:2010-06-30)
参考文献数
18
被引用文献数
2 2

This paper proposes a method for the unsupervised learning of lexicons from pairs of a spoken utterance and an object as its meaning under the condition that any priori linguistic knowledge other than acoustic models of Japanese phonemes is not used. The main problems are the word segmentation of spoken utterances and the learning of the phoneme sequences of the words. To obtain a lexicon, a statistical model, which represents the joint probability of an utterance and an object, is learned based on the minimum description length (MDL) principle. The model consists of three parts: a word list in which each word is represented by a phoneme sequence, a word-bigram model, and a word-meaning model. Through alternate learning processes of these parts, acoustically, grammatically, and semantically appropriate units of phoneme sequences that cover all utterances are acquired as words. Experimental results show that our model can acquire phoneme sequences of object words with about 83.6% accuracy.