著者
金寺 登 荒井 隆行 岡田 賢治 浅井 健司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.155, pp.67-72, 2003-06-20

音声特微量の時間軌跡をフーリェ変換したものは変調スペクトルと呼ばれ,音声の認識には特定の変調スペクトルが重要であることが知られている.本報告ではよ音声認識にとって変調スペクトルの各成分がどの程度重要であるかを示す貢献度に応じて変調スペクトルを強調した音声認識特微量を提案する.自動音声認識実験の結果,提案した特微量は,雑音環境下において音声認識性能が約5%改善されることを確認した.
著者
金寺 登 Hynek Hermansky 荒井 隆行 船田 哲男
出版者
情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.120, pp.15-22, 1997-12-11

CMS法や動的特徴は変調周波数特性を操作することにより音声認識性能が向上することが知られているが、どの変調周波数がどの程度重要であるのかという定量的な検討は行われていない。そこで本研究では、様々な変調周波数特性を持った入力に対し、音声認識性能の違いを種々の雑音環境、認識方式、特徴量のもとで調べた。その結果、以下のことが分かった: ) 言語情報のほとんどが1?16 Hzの変調周波数帯域に存在し、その中でも4 Hz付近が最も重要である。) 変調スペクトルにおいては位相情報も重要である。) 4 Hz付近の変調周波数を含む特徴量を用いることで動的特徴量と同等以上の結果が得られる。) 適切な中心周波数と帝域幅をもつ複数のサブバンドを変調周波数上で用いることにより、認識性能がさらに向上する。We report on the effect of band-pass filtering of the time trajectories of spectral envelopes on speech recognition. Several types of recognizers, several types of features, and several types of filters are studied. Results indicate the relative importance of different components of the modulation spectrum of speech for ASR. General conclusions are: (1) most of the useful linguistic information is in modulation frequency components from the range between 1 and 16 Hz, with the dominant component at around 4 Hz, (2) it is important to preserve the phase information in modulation frequency domain, (3) The features which include components at around 4 Hz in modulation spectrum outperform the conventional delta features, (4) The features which represent the several modulation frequency bands with appropriate center frequency and band width increase recognition performance.
著者
荒井 隆行 岡崎 恵子 今富 摂子 吉田 裕一
出版者
一般社団法人日本音響学会
雑誌
Journal of the Acoustical Society of Japan (E) (ISSN:03882861)
巻号頁・発行日
vol.18, no.6, pp.297-304, 1997-11
被引用文献数
1

Palatalized articulation (PA) is frequently observed in speech uttered by postoperative cleft palate patients. Provided the acoustical and perceptual cues of PA can be found, speech therapists will be able to use these cues to diagnose PA non-invasively and objectively. We tested human perception of certain synthetic sounds to verify the cues of the PA of /s/ in Japanese. To synthesize the fricatives, we modified the center frequency and the bandwidth of a complex-conjugate pole pair of an all-pole filter obtained from the linear predictive analysis of the PA of /s/. First, we shifted the center frequency from 1,000 to 3,000 Hz, while the relative bandwidth, or Q factor, was fixed at 10. Subsequently, we shifted the Q factor from 1 to 10, while the center frequency was fixed at 1,800 Hz. The results of a perceptual experiment involving nine speech therapists were conclusive that fricatives having a peak between 1,600 and 2,400 Hz tend to be identified as the PA of /s/, and fricatives having a peak at 1,800 Hz with the Q factor &gt5, tend to be identified as the PA of /s/. The two-tube model also showed that a peak around 2 kHz characterizes the PA of /s/.