著者
陸 金林 安藤 裕司 粕谷 英樹
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.48, no.9, pp.642-648, 1992-09-01 (Released:2017-06-02)
参考文献数
20
被引用文献数
2

本論文では音声音源波形を生成するために拡張したRosenberg-Klattモデル(RKモデル)を述べ、音声信号から半自動的にモデルパラメータを精度よく推定する方法を提案する。また、音声音源特性と発声様式の関係を調べる。弱い発生などによく見られる相対的に強い基本波成分を生成するため、RKモデルに一つのパラメータを追加する。音源パラメータの推定は声門逆フィルタリングとモデルパラメータの抽出の2段階からなっている。声門逆フィルタに用いられるホルマント周波数とバンド幅の推定には、我々が最近提案した複数閉鎖区間線形予測分析法(MCLP)を用いる。男性2名が異なる強さと高さで発声した母音サンプルを用いて音源パラメータを分析した。その結果、モデルパラメータの幾つかは発声の強さ及びピッチ周波数と系統的に関係することを示した。
著者
松田 勝敬 粕谷 英樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.99, no.73, pp.39-46, 1999-05-20
被引用文献数
9

ささやき声では、通常発声に比ベ低い周波数のフォルマント周波数が変化することなどが知られている。しかし、その原因はらかにされていなかった。本稿では、喉頭内視鏡やMRIを用いてささやき声における音声器官の変化を測定した。その結果をもとに電気回路によるささやき声のモデルをつくった。モデルによってささやき声のシミュレーションをおこない、ささやき声における周波数構造の変化の原因を明らかにした。また、得られた結果をもとにフォルマント型音声合成法における、ささやき声の精密な合成方法を提案する。
著者
粕谷 英樹 鈴木 久喜 城戸 健一
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.24, no.6, pp.355-364, 1968-11-30
被引用文献数
43

For the purpose of determining the characteristics of phonetic quality of voewls, the trend in the changes of formants and pitch of vowel with age and sex of speaker has been investigated by analyzing a large number of samples of five japanese vowels. Conclusions obtained are as follows. (1) Most of the formants considerably change with the age of the speaker. Principal articulatory factor in the change of formants is the difference in the vocal tract length. On the other hand, the third formant of /i/ which depends mainly upon the front part of oral cavity, and the first and second formants of vowels /o/ and /u/ which constitute comparatively lip-rounded articulatory configuration do not change so much. For each case of children, youth and female adults the ratio of the measured formant of the open and back vowel /a/ to the mean value of the corresponding formant of male adults is approximately constant. Hence we can estimate the vocal tract length of the speaker from the mesured formants, using Eq. (2). (2) The differences between the first and second formants of male and those of female become distinct after 11 years old, while the difference between the third formant of male and that of female becomes distinct after 9 years old. absolute differences of formants, particularly of the third formant, are useful to discriminate the sex of the speaker. This is important in the case of children since pitch is useless in the distinction of the sex of the speaker before 12 years old (the voice change). (3)There is obvious difference between the pitches of children, youth, female adults and male adults, but it is difficult to infer the age of the speaker from his pitch. (4) Generally speaking, there is a correlation between formant and pitch, but there is no correlation if the speech samples are taken from the speakers of the same age. The correlations of formants and pitch come from the correlations between the age and the formants and the correlation between the age and the pitch. (5) Perfect discrimination of the vowels can not be made by the first and second formants only. There are some confusions between certain vowels (/a/ and /o/, /e/ and /u/) on the first and second formant-plane. But, thre is little confusion between the vowels in the three dimentional space composed of the first, the second and the third formants or of the pitch, the first and the second formants. The pitch or the third formant, not to mention the first and second formant, is an indispensable parameter for the discrimination of the vowels regardless of the age and sex of the speaker.
著者
粕谷 英樹
出版者
日本喉頭科学会
雑誌
喉頭 (ISSN:09156127)
巻号頁・発行日
vol.14, no.2, pp.57-63, 2002-12-01 (Released:2012-09-24)
参考文献数
13

Speech analysis methods can be divided into two classes, parametric and nonparametric. The parametric method includes a speech production model in the analysis process, while the nonparametric method does not. The former is exemplified by the well-established linear prediction analysis and the latter often utilizes short-term Fourier analysis. Recent progress in speech analysis methods can be found in an ARX (Auto-regressive with exogenous input) method, a parametric approach, as well as STRAIGHT (Speech Transformation and Representation using Adaptive Interpolation of weighted spectrum) method, a nonparametric approach. The ARX method incorporates a sophisticated ARX-based speech production model, making it possible to separately estimate glottal flow parameters and formants. Basic and clinical applications of the ARX method are presented in the field of voice and speech disorders, including acoustic evaluation of dysarthria, esophageal voice and dysphonia.
著者
松田 勝敬 森 大毅 粕谷 英樹
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.56, no.7, pp.477-487, 2000-07-01
参考文献数
25
被引用文献数
3

ささやき声の低次のフォルマント周波数が, 通常発声に比べてわずかに高いことが知られている。本論文ではこの現象について, 声門下部系の結合を考慮した声道の電気回路モデルをもとに音響的に説明することを試みる。モデルにおける, 3次元声道形状は磁器共鳴画像(MRI)から測定した。その結果, 声門上部構造のせばめと, 声道と声門下部系との結合が低い周波数のフォルマントを上昇させる主な原因であることが分かった。
著者
松田 勝敬 森 大毅 粕谷 英樹
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.56, no.7, pp.477-487, 2000-07-01 (Released:2017-06-02)

ささやき声の低次のフォルマント周波数が, 通常発声に比べてわずかに高いことが知られている。本論文ではこの現象について, 声門下部系の結合を考慮した声道の電気回路モデルをもとに音響的に説明することを試みる。モデルにおける, 3次元声道形状は磁器共鳴画像(MRI)から測定した。その結果, 声門上部構造のせばめと, 声道と声門下部系との結合が低い周波数のフォルマントを上昇させる主な原因であることが分かった。
著者
粕谷 英樹 鈴木 久喜 城戸 健一
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.24, no.6, pp.355-364, 1968-11-30 (Released:2017-06-02)
被引用文献数
5

For the purpose of determining the characteristics of phonetic quality of voewls, the trend in the changes of formants and pitch of vowel with age and sex of speaker has been investigated by analyzing a large number of samples of five japanese vowels. Conclusions obtained are as follows. (1) Most of the formants considerably change with the age of the speaker. Principal articulatory factor in the change of formants is the difference in the vocal tract length. On the other hand, the third formant of /i/ which depends mainly upon the front part of oral cavity, and the first and second formants of vowels /o/ and /u/ which constitute comparatively lip-rounded articulatory configuration do not change so much. For each case of children, youth and female adults the ratio of the measured formant of the open and back vowel /a/ to the mean value of the corresponding formant of male adults is approximately constant. Hence we can estimate the vocal tract length of the speaker from the mesured formants, using Eq. (2). (2) The differences between the first and second formants of male and those of female become distinct after 11 years old, while the difference between the third formant of male and that of female becomes distinct after 9 years old. absolute differences of formants, particularly of the third formant, are useful to discriminate the sex of the speaker. This is important in the case of children since pitch is useless in the distinction of the sex of the speaker before 12 years old (the voice change). (3)There is obvious difference between the pitches of children, youth, female adults and male adults, but it is difficult to infer the age of the speaker from his pitch. (4) Generally speaking, there is a correlation between formant and pitch, but there is no correlation if the speech samples are taken from the speakers of the same age. The correlations of formants and pitch come from the correlations between the age and the formants and the correlation between the age and the pitch. (5) Perfect discrimination of the vowels can not be made by the first and second formants only. There are some confusions between certain vowels (/a/ and /o/, /e/ and /u/) on the first and second formant-plane. But, thre is little confusion between the vowels in the three dimentional space composed of the first, the second and the third formants or of the pitch, the first and the second formants. The pitch or the third formant, not to mention the first and second formant, is an indispensable parameter for the discrimination of the vowels regardless of the age and sex of the speaker.
著者
小室 修 粕谷 英樹
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.47, no.12, pp.928-934, 1991
被引用文献数
20

本論文では、基本周期のゆらぎと振幅のゆらぎを独立に制御できる新しい分析合成システムを用いて、正常音声の場合について、基本周期ゆらぎのどのような性質が音声の声質に寄与しているかを調べた。聴取実験により、定常母音においては、基本周期ゆらぎのトレンド成分(遅い成分)が原音声の品質を保持するために特に重要であることが分かった。そこで、トレンド成分の特徴を簡単に制御できる基本周期ゆらぎの生成モデルを提案した。聴取実験により、提案したモデルによるゆらぎの方が正規性白色雑音のゆらぎよりも、原音声の品質を保存する上で優れていることが分かった。また、基本周期が大きく変化する非定常母音では、基本周期の変化の概形を保存するだけで原音声の品質を保存することが分かった。
著者
遠藤 康男 粕谷 英樹
出版者
日本音声言語医学会
雑誌
音声言語医学 (ISSN:00302813)
巻号頁・発行日
vol.34, no.4, pp.338-341, 1993
被引用文献数
3 2

嗄声における基本周期 (周波数) , 振幅系列のゆらぎを定量化するために比較的良く用いられるさまざまなゆらぎパラメータについて比較検討を行った.パラメータとしてjitter/shimmer factor, 変動指数, ジッタ/シマーパラメータを用いた.これらのパラメータと熟練した耳鼻科医がGRBAS尺度に関して評定した聴覚的評点との関係という観点から比較検討を行った.喉頭癌, 声帯ポリープ, 反回神経麻痺患者が発声した持続母音の52例を用いた実験により, ジッタ/シマーパラメータが病的音声の聴覚的印象と最も対応が良いことを示した.
著者
遠藤 康男 粕谷 英樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. A, 基礎・境界 (ISSN:09135707)
巻号頁・発行日
vol.81, no.7, pp.1031-1041, 1998-07-25
参考文献数
25
被引用文献数
5

音声における周期ごとのゆらぎは知覚される自然性, 声質を記述するのに重要である.この周期ごとのゆらぎを考慮した音声の分析・変換・合成システムを提案する.システムにおいてゆらぎは, 基本周期ゆらぎ(ジッタ), 実効値ゆらぎ(シマ), 周波数スペクトルゆらぎに分けられ, 自己回帰移動平均(ARMA)モデルで定式化される.このモデルはゆらぎの大きさだけでなくスペクトル特性も定量化する.周波数スペクトルは主成分スペクトル成分に変換され次元が大幅に縮小される.この主成分スペクトルに対しARMAをあてはめる.実験の結果以下のようなことが示された.(1)日本語母音/a/の周波数スペクトルは8個の主成分スペクトル成分で表される.(2)モデルはもとのゆらぎを再現できる.(3)原音声と再合成した母音信号は聴覚的にほとんど違いがない.このシステムはさまざまな音声の研究分野で有用である.
著者
遠藤 康男 粕谷 英樹
出版者
日本音声言語医学会
雑誌
音声言語医学 (ISSN:00302813)
巻号頁・発行日
vol.34, no.4, pp.338-341, 1993-10-20 (Released:2010-06-22)
参考文献数
11
被引用文献数
2 2

嗄声における基本周期 (周波数) , 振幅系列のゆらぎを定量化するために比較的良く用いられるさまざまなゆらぎパラメータについて比較検討を行った.パラメータとしてjitter/shimmer factor, 変動指数, ジッタ/シマーパラメータを用いた.これらのパラメータと熟練した耳鼻科医がGRBAS尺度に関して評定した聴覚的評点との関係という観点から比較検討を行った.喉頭癌, 声帯ポリープ, 反回神経麻痺患者が発声した持続母音の52例を用いた実験により, ジッタ/シマーパラメータが病的音声の聴覚的印象と最も対応が良いことを示した.
著者
木戸 博 粕谷 英樹
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.57, no.5, pp.337-344, 2001-05-01
被引用文献数
13

通常発話の声質を表す日常表現語について研究を進めている。自然音声の聴取実験を通して, 同じ音声を複数の他者が評価した値から, 声質表現語の抽出を行った。了解性の高い25語の声質表現語を評価項目として, 性別や年齢を考慮した被験者90名を対象に, 吟味した男声18例を評価させる聴取実験を行った。実験結果を統計分析した上で,反意語を調べたところ, 声質表現語は男女被験者とも同じ6対の表現語対と反意語を持たない一つの表現語に凝縮できた。また, 聴取印象の因子として, 音色因子に対応する3因子を抽出した。以上の結果は, 自己評価法で得られた155名の自己評価値に基づく結果と同質であり, 得られた表現語対は, 声質表現語として一般性を持つものと判断できる。
著者
松田 勝敬 森 大毅 粕谷 英樹
出版者
日本音声学会
雑誌
音声研究 (ISSN:13428675)
巻号頁・発行日
vol.3, no.3, pp.67-75, 1999-12-30
被引用文献数
1

The lower formant frequencies of whispered vowels are known to be slightly higher than those of modal vowels. This paper attempts to interpret this phenomenon acoustically, based on an electrical circuit model of the vocal tract. Perceived naturalness of whispered vowels is shown to be associated with bandwidth of the lower formant and spectral tilt resulting from loose acoustic coupling between supra- and sub-glottal systems through a small glottal chink. Perceptual significance of the frequency shift of the lower formant in whispered vowels is also studied. Perceptual experiments showed in that vowel boundaries between modal and whispered vowels were not changed in four of six subjects for the /o/-/a/ stimuli and in two of six for the /i/-/e/ stimuli. The results indicated that frequency shift of the lower formant in whispered vowels is not necessarily associated with the compensation for vowel boundary shifts.
著者
森 大毅 粕谷 英樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.55, pp.55-62, 2001-06-01
被引用文献数
2

音声対話システムのための言語モデルとしてsuperwordモデルを提案しており、パープレキシティの点で優れていることがわかっている。本報告では、音声対話システムの応答タイミングの高度な制御を目的として、superwordに基づく話者交替の予測モデルを提案する。話者交替/非交替のキューとなる表現の抽出のため、superword確率から計算されるキューの強度を定義した。キューの強度に従って抽出したsuperwordには、話者交替に関係があると思われる表現が多く含まれていた。また、一部のタスクに対してはキューの強度分布が実際の話者交替/非交替によって異なることから、提案した予測モデルの有効性が示された。The superword model is a data-driven framework for dialogue modeling and its superiority was shown in our previous works. In this report, we propose a superword-based turn-taking prediction model for precise control of responce timing of spoken dialogue systems. First, cue intensity is defined with superword probability in order to extract cue expressions for turn-taking or turn-holding. Extracted superword set is shown to include a lot of relevant expressions to turn-taking. Finally, the effectiveness of the proposed prediction model for some tasks has been revealed by showing the difference of cue distribution according to actual turn-taking / turn-holding.