著者
越塚 毅 大村 英史 桂田 浩一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.39, pp.1-6, 2021-02-24

音声変換は,入力された音声に対して言語情報を保持しつつ,話者性などの非言語情報のみを変換する技術である.一般的に,音声から話者性を除去するEncoderと,別話者の情報を加えるDecoderから構成されるシステムが多い.本稿では,事前学習した vq-wav2vecをEncoderに用いたボコーダフリーのAny-to-Many音声変換モデルを提案する.提案モデルでは Encoder の事前学習に加えて,RNN_MS と同様の構造を持つDecoderも事前学習することによって,少量の学習データからの音声変換を実現している.このように Encoder および Decoderを事前学習することにより学習データ量を削減する方法は既に提案されているが,Any-to-Many音声変換を対象としている点,およびDecoderの事前学習を音声変換タスクによって行う点が異なる.音声変換の精度を評価したところ,良好な音声変換精度が得られることが確認できた.また,既に学習済みのターゲット話者に対する変換精度を損なうことなく新たなターゲット話者を追加できることが確認できた.