著者
齋藤 大輔 山本 敬介 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.322, pp.7-12, 2011-11-21

本稿では,話者空間をテンソル形式によって表現することにより,柔軟に話者性を制御することが可能となる新しい手法を提案する.声質変換の研究において,任意話者の音声を入力または出力として,変換を実現する手法はアプリケーション応用の観点からも非常に重要な技術であるといえる.任意話者声質変換を目的とする技術として,固有声混合正規分布モデル(EV-GMM)に基づく固有声変換法(EVC)が提案されている.EVCにおいては,話者認識でよく用いられるアプローチと同様に,各話者GMMの正規分布の平均ベクトルを連結して得られるGMMスーパーベクトルをもとに話者空間が構築される.構築された話者空間上において,個々の話者は固有スーパーベクトルに対する少数の重みパラメータによって表現することが可能となる.本稿では,話者空間を構築するための事前学習話者データに対して,テンソル解析を導入することによって話者空間を構築することを検討する.本研究における提案手法では,個々の話者はスーパーベクトルではなく行列によって表現される.この話者を表す行列の行及び列は,それぞれ音響特徴量の平均ベクトルの次元及びガウス分布の要素に対応する.ここで,これらの行列のセットに対してテンソル解析を導入することで話者空間が構築される.提案法は,話者情報のスーパーベクトル表現に内在する問題点に対する解法となっており,任意話者声質変換の性能向上が期待できる.本稿では,一対多声質変換において,提案する話者空間表現を導入することで,その有効性を示す.