著者
松永 悟行 大谷 大和 平原 達也
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J102-D, no.10, pp.721-729, 2019-10-01

Deep Neural Network(DNN)を用いた音声合成の基本的な構成は,文章を構成する情報を数値で表現した言語特徴量を入力して音声を合成するための特徴量を出力するものである.これらの入出力特徴量は,DNNに適するように学習データを用いて正規化や標準化することが多い.しかし,自由文章から音声を合成する場合には,この正規化の範囲や標準化の分布から外れる値が言語特徴量に含まれる可能性がある.そして,この外れ値はDNNの外挿能力が十分でないために適切に補間されないまま伝搬して出力特徴量に誤差を生じさせる.本論文では,言語特徴量の外れ値の問題を解決するために,一発話内の閉じた条件における正規化手法を提案し,日本語の音声合成で重要な要素の一つである基本周波数について,予測誤差と合成音声の聴取による評価を行った.その結果,提案した正規化手法では,従来の正規化手法で発生していた外れ値は発生しないこと,正規化した値が基本周波数に適したものになったことにより少量の学習データでも予測誤差は従来よりも小さくなり,安定した予測が可能になることがわかった.
著者
松永 悟行 平原 達也
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.67, no.8, pp.331-338, 2011-08-01 (Released:2017-06-02)
参考文献数
11
被引用文献数
2

頭部伝達関数は相反法を利用することにより短時間で計測できる。相反法を利用した頭部伝達関数の計測には超小型スピーカユニットをシリコーン印象材に埋め込んだ耳栓スピーカが必要となる。この耳栓スピーカに用いる三種類の超小型スピーカユニット(DTEC-30008,ED-29689,SR6438NWS,Knowles)を自由空間で用いた場合の音響特性を計測した。いずれのスピーカユニットも高域では60dB程度の出力音圧レベルが得られるが,低域の出力音圧レベルは低かった。スピーカとマイクロホン間の距離が0.2mの場合,暗騒音レベル16dBの計測室において出力音圧レベルのSN比が0dB以上となるのは,DTEC-30008では120Hz〜20kHz,ED-29689では170Hz〜20kHz,SR6438NWSでは260Hz〜20kHzであった。また,いずれのスピーカユニットを用いた耳栓スピーカも10kHz以下では無指向性であった。DTEC-30008は12kHz〜17kHzにディップが生じ,それらの周波数と深さが方位によって大きく変化した。他のスピーカユニットは10kHz以上でほぼ無指向性であった。いずれのスピーカユニットも印加電圧を増加すると大きな2次及び3次高調波歪が発生した。それらのレベルを基本波レベルよりも小さくするためには,DTEC-30008,ED-29689,SR6438NWSへの入力電圧はそれぞれ1V,250mV,550mV以下にする必要があった。これらの結果より,DTEC-30008,ED-29689,SR6438NWSは相反法による頭部伝達関数の計測に利用できることが分かった。各スピーカユニットの有効周波数範囲は,暗騒音レベルが16dBで距離が0.2mでは120Hz〜10kHz,170Hz〜16kHz,260Hz〜20kHz,1.0mの距離では170Hz〜10kHz,280Hz〜16kHz,290Hz〜20kHzであった。