著者
グリーンバーグ 陽子 加藤 宏明 津崎 実 匂坂 芳典
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.67, no.2, pp.65-74, 2011-02-01 (Released:2017-06-02)
参考文献数
15

対話音声の合成を目指して,対話韻律生成の方法を提案した。対話場面において出現する発話内容自体が,その取り得る対話韻律を限定することに着目し,提案方法では,入力となる語彙が与える印象によって制約される韻律特徴量を用いて,従来の読み上げ韻律を修正する対話韻律生成を行う。これまでに行った一語発話「ん」のパラ言語分析が示した,3次元の知覚的印象空間(確信-疑念,肯定-否定,好印象-悪印象)と韻律制御(基本周波数の平均値と時間変化形状,発話時間長)の関係を用いて,同じ印象空間で典型的な座標を持つ語彙に対して,対応する対話韻律を付与した。得られた合成音声に対する自然性評価実験により,提案した方法の妥当性を確認した。
著者
永岡 篤 森 大毅 有本 泰子
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.73, no.11, pp.682-693, 2017

<p>感情音声コーパスに付与されている感情ラベルには,次元で記述されたものとカテゴリで記述されたものがあり,これらには互換性がない。複数コーパスを統合し大規模なコーパスとして扱うためには感情ラベルの共通化が必要であるが,人手による感情ラベル付与はコストが高い。音声からの感情認識の技術を利用すれば異種感情ラベルの自動付与が可能だが,その推定精度は十分とは言えない。本論文では,音声から得られる特徴量に加え,それぞれの感情音声コーパスにもともと付与されている感情ラベルをも推定器への入力として利用した異種感情ラベル推定手法を提案する。まず,感情カテゴリラベルを持つコーパスOGVCに対する感情次元ラベルの推定実験を行った。モデル学習用のコーパスに付与されている感情ラベルとしては,次元とカテゴリの両方が利用できる場合,及び次元だけが利用できる場合についてそれぞれ検討した。次に,感情次元ラベルを持つコーパスUUDBに対する感情カテゴリラベルの推定実験を同様に実施した。実験の結果,対象コーパスにもともと付与されている感情ラベルの併用により,異種感情ラベルの推定精度を向上できることが示された。特に,UUDBに対する感情カテゴリラベルの推定においては,モデル学習用のコーパスが感情次元ラベルを持たず,推定された感情次元ラベルで代用した場合でも,推定精度を改善できることが分かった。</p>
著者
颯田 琴次 菅原 淳夫 小橋 豊
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.8, no.2, pp.97-103, 1952-06-30 (Released:2017-06-02)

The authors studies the body wall vibration(especially at the back of the nose)by phonation with a crystal pick-up to search the corelation among the amplitude of the wall vibration(μ), voice pressure(μbar)and the quantity of the nasal respiration(cc). It was found useful to decide the degree of nasalization from the ratio of the amplitude of wall vibration and the voice pressure, which was named by the authors as "vibration proportion". Comparison was made with Japanese vowels and nasal sounds uttered by 40 persons(9 male, 12 female, 5 singers and 14 patients of nasal speech). (A)Normal persons:1. The amplitude of wall vibration of nasal sounds is greatest in speech sounds. Yhe vowels "i"and "u" have greater amplitudes than others and "a" the smallest. 2. In average, the amplitude is greater in male voice than in female voice. In male voice the amplitude is great in low vocal range and in female voice it is great in high vocal range. It is very interesting to think of vocal difference by sex. 3. When nasopharynx is closed, the amplitude is smaller than when it is opened and this fact coincides with the degree of nasalization by acoustical examination. 4. The measured values slightly change sometimes on the same person(with same vocal range, voice intensity and speech sound). Accordingly, it is found that articulation is not always constant. 5. The vibration of nose wall increases with the nasalization and the relation between them, which is one of main objects of this study, is made more clear by "vibration proportion". Namly it is possible to know the degree of nasalization of a person from the "vibration proportion". (B)Singers(by singing voice):Difference between speech sounds which we perceived generally in normal persons decreases by singers and the vibration becomes more uniform. There is no wonder that it is the results of practice of singing method. (C)Patients of nasal speach:The amplitude of nose wall vibration is larger than normal extent(sometimes several times larger than normal). Therefore it is possible to know the degree of nasal speech by measurement of the wall viblation.
著者
髙橋 弘文
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.72, no.5, pp.244-249, 2016-05-01 (Released:2017-07-01)
参考文献数
4
著者
高田 実 大河内 重信 那須 伝夫
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.10, no.1, pp.23-27, 1954-03-30 (Released:2017-06-02)

The values of the absorption coefficient of snow have been measured by Standing Wave Method. The propagation of sound has also been tested under various conditions of snow, such as soft new, hard old, frozen and falling. The results obtained were compared with that under the snowless condition. In newly fallen state, because of its appreciable absorption, sound is considerably reduced at a distance more than two hundred meters from the sound source, while, in hard and frozen state, the reduction is comparable with that of the snowless condition. The propagation of sound under the condition of a rising vapour in spring was found quite peculiar.
著者
池田 雄介 後藤 亮 岡本 直毅 滝澤 俊和 及川 靖広 山崎 芳男
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.62, no.7, pp.491-499, 2006-07-01 (Released:2017-06-02)
参考文献数
14
被引用文献数
3

マイクロホンを用いた測定では測定対象となる点にマイクロホンを置かざるを得ない。特に多数の近接した測定点を同時に測定する場合にマイクロホン自体の影響を無視できない。本論文ではレーザCTを用いた精細な音場測定を提案しその原理と測定例を示す。レーザ干渉計を用いて音によるレーザの光路長変化を測定できる。測定対象となる音場に対しあらゆる方向から光路長変化を測定し,それらを投影として音による屈折率変化の分布を再構成する。屈折率と音庄の関係を用いて昔圧分布を求めることが可能になる。また,測定例として2ウェイスピーカと平板スピーカの生成する音場の定性的な違いを確認した。
著者
高田 啓二
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.48, no.10, pp.736-741, 1992-10-01 (Released:2017-06-02)
参考文献数
16
著者
藤崎 博也 須藤 寛
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.27, no.9, pp.445-452, 1971-09-10 (Released:2017-06-02)
被引用文献数
2

Prosodic features in speech can be interpreted as responses of the underlying mechanisms to a set of linguistic commands. This paper presents a quantitative model for the mechanisms of generating fundamental frequency contours of word accent of standard Japanese. All the types of word accent of standard Japanese are characterized by the existence of a transition in the subjective pitch, either upward or downward, at the end of the initial mora, and by the fact that no more than one downward transition is allowed within a word. Table 1 lists are patterns of subjective pitch of all the possible accent types of words that consist of up to 5 morae. These binary patterns, however, never manifest as such in the fundamental frequency contours. Analysis of utterances of a number of speakers (Fig. 1) indicates that the logarithmic fundamental frequency contours of the same word accent, when normalized both in time and in frequency, are essentially similar(Fig. 2 and Fig. 3). These observations lead to the model of Fig. 4 based of the following assumptions:(1) Each type of word accent can be characterized by a unique logarithmic contour. (2) Commands for voicing and accent take the form of binary input to the system. (3) Separate mechanisms exist for voicing and accent, which can be approximated by linear system that convert the binary commands into the respective control signals(Fig. 5). (4) These control signals are combined and applied to the mechanism of glottal oscillation, whose fundamental frequency is an exponential function of the control signal. (5) The glottal mechanism shows hysteresis specified by the onset and cessation of the oscillation(Fig. 6). In order to investigate the validity of the model, fundamental frequency contours of various utterances of isolated words were extracted by a Computer program(Fig. 7) and were analyzed by the method of Analysis-by-Synthesis(Fig. ). A few examples of the comparison of the extracted fundamental frequency contour and its closest approximation obtained by the A-b-S procedure are shown in Fig. 9