著者
河井 恒 広瀬 啓吉 藤崎 博也
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.6, pp.433-442, 1994-06-01 (Released:2017-06-02)
参考文献数
19

規則による日本語の音声合成において、高品質の韻律的特徴を生成しうる規則を作成した。この規則は、アクセント型、統語構造、文の焦点などの言語情報から韻律的特徴を表現する記号を生成する。韻律記号は、3種類の休止記号、4種類のフレーズ記号、及び6種類のアクセント記号からなり、音声の基本周波数パターンを生成するために用いられる。統語構造は、文境界、節境界、ICRLB境界などの統語境界によって表され、主として休止記号とフレーズ記号の生成に用いられる。一方、文の焦点は、韻律語の強調/抑圧として表され、アクセント記号の生成に用いられる。規則によって生成された韻律的特徴の正当性を評価するため、規則作成に用いたものとは別の文章を対象として、規則によって生成された韻律上の単位と職業アナウサが発声した自然音声の韻律上の単位との対応関係を調べた。その結果、両者は70〜90%の高い割合で一致しており、合成音声の自然性とあいまって本規則の有効性が示された。
著者
成澤 修一 峯松 信明 広瀬 啓吉 藤崎 博也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.7, pp.2155-2168, 2002-07-15
被引用文献数
18 4

藤崎らによる音声の基本周波数パターン($F_0$ パターン)生成過程のモデルは,少数のパラメータから実測の $F_0$ パターンにきわめて近いパターンを生成しうることが知られており,音声合成に広く用いられている.一方,実測の $F_0$ パターンからモデルのパラメータを抽出することは解析的には解けない逆問題であり,初期値を与え逐次近似を行う必要がある.この場合,高精度のパラメータを迅速に抽出するには適切な初期値の設定が不可欠であるが,従来はこれを人手によって行っていたため,大量の音声資料の自動的処理は困難であった.本論文では,実測の $F_0$ パターンからパラメータの初期値を自動的に決定し,さらにそれに基づいて高精度のパラメータ抽出を自動的に行う手法を提案する.この手法は,実測された $F_0$ パターンをいたるところで連続かつ微分可能な曲線によって近似するための処理,得られた曲線からアクセント指令とフレーズ指令のパラメータの初期値を決定するための処理,さらにそれらの初期値をもとに逐次近似によりパラメータの最適値を求める処理,の3段階の処理からなる.共通日本語の男性・女性話者各1名の朗読音声を対象とした実験の結果,男性の朗読音声について,以前に提案された手法では,パラメータ抽出の性能として,指令の再現率78%,精度67%であるのに対し,提案手法によればそれぞれ82%,80%であった.また,女性の朗読音声については,従来手法では再現率60%,精度51%であるのに対し,提案手法ではそれぞれ83%,72%であった.この結果から,本手法の有効性が実証された.The model for the generation process of the fundamental frequency contours (F0 contours) of speech by Fujisaki et al. is known to be capable of generating F0 contours quite close to observed natural contours, and is widely used in speech synthesis. The extraction of model parameters from an observed F0 contour, however, is an inverse problem that cannot be solved analytically, and requires an iterative process starting from a set of initial parameter values. In order to guarantee a rapid convergence to an optimum solution, the process requires appropriate initial values. These initial values have usually been given manually, making it difficult to analyze a large amount of speech material. The present paper proposes a method for automatically extracting the parameter values from a given F0 contour. The method consists of three steps: approximation of an observed F0 contour by a curve that is continuous and differentiable everywhere, extraction of initial values for the parameters from the curve, and optimization of the parameters by successive approximation. Analysis of read speech material of common Japanese by a male speaker showed that the recall and precision rates of model command estimation reached respectively 82% and 80% by the proposed method, while the rates obtained by a previous method were 78% and 67%, respectively. The recall and precision rates obtained for a female speaker were respectively 83% and 72% by the proposed method, but were respectively 60% and 51% by the previous method. These results demonstrate the validity of the current approach.
著者
藤崎 博也 杉藤 美代子
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.34, no.3, pp.167-176, 1978-03-01 (Released:2017-06-02)

For the purpose of elucidating the relationship between the word accent types and the contours of fundamental frequency (F_0-contour), a model has been presented by one of the authors for the process of generating an F_0-contour from "voicing" and "accent" commands, and has been applied to analyze the F_0-contours of word accent types in the Tokyo dialect. The present study was conducted to test the model's validity for the Kinki dialect, which posesses peculiar accent types not found in the Tokyo dialect (Table 1), and also to examine the perceptual significance of parameters of the model. The speech materials were the utterances of two-mora [ame] pronounced in all four accent types of the Osaka dialect (Table 2) by a male informant. Extraction of F_0-contours (Fig. 1) and their parameters were conducted with a digital computer. Using a functional model for generating the F_0-contour(Figs. 2 and 3), parameters were extracted from six utterances each of the accent types, by finding the best match between the observed and generated F_0-contours (Table 3). The close agreement between the observed and generated contours proved the model's validity for the Kinki dialect (Fig. 4). While the magnitude and rate of responses to voicing and accent command are considered to characterize the laryngeal functions of a speaker, the timing parameters of the accent command, i. e. the onset and the end, are found to be specific to each accent type, and can clearly separate the four accent types (Fig. 5). The perceptual relevance of these timing parameters was examined by the identifications tests of accent types using 40 synthetic speech stimuli consisting of both typical stimuli of the four accent types and intermediate stimuli, generated by systematicallyvarying the timing parameters of the accent command. The subjects were 10 speakers of the Osaka dialect and two speakers of the Tokyo dialect. The perceptual boundary between two accent types was determined for each subject (Fig. 6), which was quite clear-cut and almost agreed in all the subjects (Fig. 7), indicating the perceptual importance of these timing parameters in the identification of accent types. Further experiments using stimuli with systematic shifts in the timing of formant frequency patterns indicated that the relative timing of the accent command and the segmental features of a particular phoneme is quite important for the identification of a specific accent type (Figs. 8 and 9), but not necessarily for other types. These results indicate that the perception of word accent requires specification of certain features for temporal units which are smaller than mora, which is commonly accepted as the suprasegmental unit of spoken Japanese.
著者
河井 恒 広瀬 啓吉 藤崎 博也
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.6, pp.433-442, 1994-06-01
参考文献数
19
被引用文献数
8

規則による日本語の音声合成において、高品質の韻律的特徴を生成しうる規則を作成した。この規則は、アクセント型、統語構造、文の焦点などの言語情報から韻律的特徴を表現する記号を生成する。韻律記号は、3種類の休止記号、4種類のフレーズ記号、及び6種類のアクセント記号からなり、音声の基本周波数パターンを生成するために用いられる。統語構造は、文境界、節境界、ICRLB境界などの統語境界によって表され、主として休止記号とフレーズ記号の生成に用いられる。一方、文の焦点は、韻律語の強調/抑圧として表され、アクセント記号の生成に用いられる。規則によって生成された韻律的特徴の正当性を評価するため、規則作成に用いたものとは別の文章を対象として、規則によって生成された韻律上の単位と職業アナウサが発声した自然音声の韻律上の単位との対応関係を調べた。その結果、両者は70〜90%の高い割合で一致しており、合成音声の自然性とあいまって本規則の有効性が示された。
著者
藤崎 博也 須藤 寛
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.27, no.9, pp.445-452, 1971-09-10 (Released:2017-06-02)
被引用文献数
2

Prosodic features in speech can be interpreted as responses of the underlying mechanisms to a set of linguistic commands. This paper presents a quantitative model for the mechanisms of generating fundamental frequency contours of word accent of standard Japanese. All the types of word accent of standard Japanese are characterized by the existence of a transition in the subjective pitch, either upward or downward, at the end of the initial mora, and by the fact that no more than one downward transition is allowed within a word. Table 1 lists are patterns of subjective pitch of all the possible accent types of words that consist of up to 5 morae. These binary patterns, however, never manifest as such in the fundamental frequency contours. Analysis of utterances of a number of speakers (Fig. 1) indicates that the logarithmic fundamental frequency contours of the same word accent, when normalized both in time and in frequency, are essentially similar(Fig. 2 and Fig. 3). These observations lead to the model of Fig. 4 based of the following assumptions:(1) Each type of word accent can be characterized by a unique logarithmic contour. (2) Commands for voicing and accent take the form of binary input to the system. (3) Separate mechanisms exist for voicing and accent, which can be approximated by linear system that convert the binary commands into the respective control signals(Fig. 5). (4) These control signals are combined and applied to the mechanism of glottal oscillation, whose fundamental frequency is an exponential function of the control signal. (5) The glottal mechanism shows hysteresis specified by the onset and cessation of the oscillation(Fig. 6). In order to investigate the validity of the model, fundamental frequency contours of various utterances of isolated words were extracted by a Computer program(Fig. 7) and were analyzed by the method of Analysis-by-Synthesis(Fig. ). A few examples of the comparison of the extracted fundamental frequency contour and its closest approximation obtained by the A-b-S procedure are shown in Fig. 9
著者
成澤 修一 峯松 信明 広瀬 啓吉 藤崎 博也
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.7, pp.2155-2168, 2002-07-15

藤崎らによる音声の基本周波数パターン($F_0$ パターン)生成過程のモデルは,少数のパラメータから実測の $F_0$ パターンにきわめて近いパターンを生成しうることが知られており,音声合成に広く用いられている.一方,実測の $F_0$ パターンからモデルのパラメータを抽出することは解析的には解けない逆問題であり,初期値を与え逐次近似を行う必要がある.この場合,高精度のパラメータを迅速に抽出するには適切な初期値の設定が不可欠であるが,従来はこれを人手によって行っていたため,大量の音声資料の自動的処理は困難であった.本論文では,実測の $F_0$ パターンからパラメータの初期値を自動的に決定し,さらにそれに基づいて高精度のパラメータ抽出を自動的に行う手法を提案する.この手法は,実測された $F_0$ パターンをいたるところで連続かつ微分可能な曲線によって近似するための処理,得られた曲線からアクセント指令とフレーズ指令のパラメータの初期値を決定するための処理,さらにそれらの初期値をもとに逐次近似によりパラメータの最適値を求める処理,の3段階の処理からなる.共通日本語の男性・女性話者各1名の朗読音声を対象とした実験の結果,男性の朗読音声について,以前に提案された手法では,パラメータ抽出の性能として,指令の再現率78%,精度67%であるのに対し,提案手法によればそれぞれ82%,80%であった.また,女性の朗読音声については,従来手法では再現率60%,精度51%であるのに対し,提案手法ではそれぞれ83%,72%であった.この結果から,本手法の有効性が実証された.
著者
横田 和章 阿部 賢司 藤崎 博也
雑誌
全国大会講演論文集
巻号頁・発行日
vol.51, pp.1-2, 1995-09-20

近年、計算機のハードウェアの進歩に伴い、ワープロのかな漢字変換や構文チェック機能など、自然言語の解析処理が実用化されつつある。しかし、これらの機能は構文+浅い意味情報に基づいており、人間による修正無しでは満足な結果が得られない。一方、より良い結果を得るため、文の深い意味を調べる方法も報告されているが、この方法では、解析に使う知識をあらかじめ明示的に組み込んでおかなければならない。このため、処理対象となる話題を限定しないと、組み込むべき知識が膨大になって統一がとれなくなり、実現困難となる欠点を持つ。そこで、コーパスから言語的知識を獲得する方法が最近注目されている。この方法では知識をあらかじめ書き込んでおかなくても、獲得により性能を向上できる特徴を持つ。また、新しい話題に対しても、獲得により対応できる。本稿では、この様な見地から、コーパスに基づいて日本語文法を自動獲得する方法について報告する。
著者
藤崎 博也 須藤 寛
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.27, no.9, pp.445-452, 1971-09-10
被引用文献数
42

Prosodic features in speech can be interpreted as responses of the underlying mechanisms to a set of linguistic commands. This paper presents a quantitative model for the mechanisms of generating fundamental frequency contours of word accent of standard Japanese. All the types of word accent of standard Japanese are characterized by the existence of a transition in the subjective pitch, either upward or downward, at the end of the initial mora, and by the fact that no more than one downward transition is allowed within a word. Table 1 lists are patterns of subjective pitch of all the possible accent types of words that consist of up to 5 morae. These binary patterns, however, never manifest as such in the fundamental frequency contours. Analysis of utterances of a number of speakers (Fig. 1) indicates that the logarithmic fundamental frequency contours of the same word accent, when normalized both in time and in frequency, are essentially similar(Fig. 2 and Fig. 3). These observations lead to the model of Fig. 4 based of the following assumptions:(1) Each type of word accent can be characterized by a unique logarithmic contour. (2) Commands for voicing and accent take the form of binary input to the system. (3) Separate mechanisms exist for voicing and accent, which can be approximated by linear system that convert the binary commands into the respective control signals(Fig. 5). (4) These control signals are combined and applied to the mechanism of glottal oscillation, whose fundamental frequency is an exponential function of the control signal. (5) The glottal mechanism shows hysteresis specified by the onset and cessation of the oscillation(Fig. 6). In order to investigate the validity of the model, fundamental frequency contours of various utterances of isolated words were extracted by a Computer program(Fig. 7) and were analyzed by the method of Analysis-by-Synthesis(Fig. ). A few examples of the comparison of the extracted fundamental frequency contour and its closest approximation obtained by the A-b-S procedure are shown in Fig. 9