- 著者
-
成澤 修一
峯松 信明
広瀬 啓吉
藤崎 博也
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.43, no.7, pp.2155-2168, 2002-07-15
藤崎らによる音声の基本周波数パターン($F_0$ パターン)生成過程のモデルは,少数のパラメータから実測の $F_0$ パターンにきわめて近いパターンを生成しうることが知られており,音声合成に広く用いられている.一方,実測の $F_0$ パターンからモデルのパラメータを抽出することは解析的には解けない逆問題であり,初期値を与え逐次近似を行う必要がある.この場合,高精度のパラメータを迅速に抽出するには適切な初期値の設定が不可欠であるが,従来はこれを人手によって行っていたため,大量の音声資料の自動的処理は困難であった.本論文では,実測の $F_0$ パターンからパラメータの初期値を自動的に決定し,さらにそれに基づいて高精度のパラメータ抽出を自動的に行う手法を提案する.この手法は,実測された $F_0$ パターンをいたるところで連続かつ微分可能な曲線によって近似するための処理,得られた曲線からアクセント指令とフレーズ指令のパラメータの初期値を決定するための処理,さらにそれらの初期値をもとに逐次近似によりパラメータの最適値を求める処理,の3段階の処理からなる.共通日本語の男性・女性話者各1名の朗読音声を対象とした実験の結果,男性の朗読音声について,以前に提案された手法では,パラメータ抽出の性能として,指令の再現率78%,精度67%であるのに対し,提案手法によればそれぞれ82%,80%であった.また,女性の朗読音声については,従来手法では再現率60%,精度51%であるのに対し,提案手法ではそれぞれ83%,72%であった.この結果から,本手法の有効性が実証された.