- 著者
-
橋本 誠
樋口 宜男
- 出版者
- 一般社団法人電子情報通信学会
- 雑誌
- 電子情報通信学会技術研究報告. SP, 音声
- 巻号頁・発行日
- vol.95, no.41, pp.1-8, 1995-05-18
- 被引用文献数
-
5
本稿では、話者選択と移動ベクトル場平滑化(VFS: Vector Field Smoothing method)による、声質変換を目的としたスペクトル写像法(SSVFS: spectral mapping using Speaker Selection and VFS)を提案した。本手法は、予め複数登録話者の音声データを準備しておき、次の3つのステップによりスペクトルの写像を行なう。(1)話者選択により、目標話者に最も近い登録話者を1名選択し、(2)VFSにより、選択された話者のスペクトルコードブックから目標話者空間への移動ベクトルを求め、(3)移動ベクトルを用いて、選択話者から目標話者へ、任意の発話内容のスペクトル写像を行なう。話者選択を用いることにより、比較的距離の近い話者間で写像が行なえるため写像による誤差を抑えることができ、またVFSを用いることにより、少ない学習データでスペクトル写像を行なうことが可能となる。本手法を、1単語のみの学習により、目標話者を男女各4名、評価音声を50単語として平均ケプストラム距離で評価した。また、目標話者男女各1名に対する聴取実験による評価も行なった。実験の結果、(1)変換音声と目標話者音声との平均ケプストラム距離は、選択話者音声と目標話者音声との距離よりも減少すること(全目標話者平均減少率:約24.5%、最大減少率:約40.7%)、(2)約66%の割合で変換音声が選択話者音声より目標話者音声に似ていると判定され、VFSを用いない場合より高い判定率を得ること、が明らかとなり、本手法の有効性が示された。