- 著者
-
成澤 修一
峯松 信明
広瀬 啓吉
藤崎 博也
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会論文誌 (ISSN:18827764)
- 巻号頁・発行日
- vol.43, no.7, pp.2155-2168, 2002-07-15
- 被引用文献数
-
18
4
藤崎らによる音声の基本周波数パターン($F_0$ パターン)生成過程のモデルは,少数のパラメータから実測の $F_0$ パターンにきわめて近いパターンを生成しうることが知られており,音声合成に広く用いられている.一方,実測の $F_0$ パターンからモデルのパラメータを抽出することは解析的には解けない逆問題であり,初期値を与え逐次近似を行う必要がある.この場合,高精度のパラメータを迅速に抽出するには適切な初期値の設定が不可欠であるが,従来はこれを人手によって行っていたため,大量の音声資料の自動的処理は困難であった.本論文では,実測の $F_0$ パターンからパラメータの初期値を自動的に決定し,さらにそれに基づいて高精度のパラメータ抽出を自動的に行う手法を提案する.この手法は,実測された $F_0$ パターンをいたるところで連続かつ微分可能な曲線によって近似するための処理,得られた曲線からアクセント指令とフレーズ指令のパラメータの初期値を決定するための処理,さらにそれらの初期値をもとに逐次近似によりパラメータの最適値を求める処理,の3段階の処理からなる.共通日本語の男性・女性話者各1名の朗読音声を対象とした実験の結果,男性の朗読音声について,以前に提案された手法では,パラメータ抽出の性能として,指令の再現率78%,精度67%であるのに対し,提案手法によればそれぞれ82%,80%であった.また,女性の朗読音声については,従来手法では再現率60%,精度51%であるのに対し,提案手法ではそれぞれ83%,72%であった.この結果から,本手法の有効性が実証された.The model for the generation process of the fundamental frequency contours (F0 contours) of speech by Fujisaki et al. is known to be capable of generating F0 contours quite close to observed natural contours, and is widely used in speech synthesis. The extraction of model parameters from an observed F0 contour, however, is an inverse problem that cannot be solved analytically, and requires an iterative process starting from a set of initial parameter values. In order to guarantee a rapid convergence to an optimum solution, the process requires appropriate initial values. These initial values have usually been given manually, making it difficult to analyze a large amount of speech material. The present paper proposes a method for automatically extracting the parameter values from a given F0 contour. The method consists of three steps: approximation of an observed F0 contour by a curve that is continuous and differentiable everywhere, extraction of initial values for the parameters from the curve, and optimization of the parameters by successive approximation. Analysis of read speech material of common Japanese by a male speaker showed that the recall and precision rates of model command estimation reached respectively 82% and 80% by the proposed method, while the rates obtained by a previous method were 78% and 67%, respectively. The recall and precision rates obtained for a female speaker were respectively 83% and 72% by the proposed method, but were respectively 60% and 51% by the previous method. These results demonstrate the validity of the current approach.