著者
向 奈津美 金寺 登 北口 直 荒井 隆行
出版者
独立行政法人 石川工業高等専門学校
雑誌
石川工業高等専門学校紀要 (ISSN:02866110)
巻号頁・発行日
vol.39, pp.51-56, 2007

The process of detecting portions involving utterances, which is essential for captioning films, is generally carried out manually by translators at present. Robust methods are inevitable for automatic voice activity detection (VAD) in films involving other irrelevant sound information such as background music. This paper proposes a new feature for automatic VAD. The proposed method utilizes the gradient of spectrum in high-frequency domain (4-6kHz) and the standard deviation of modulation-filtered cepstrum. For evaluation experiments, we used a portion (about 23 minutes) of an English musical film. The proposed method exhibits a 22.6% reduction in total error rate compared to the conventional one utilizing the short time energy.
著者
金寺 登 荒井 隆行 船田 哲男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.7, pp.1261-1269, 2001-07-01
被引用文献数
41

CMS法や動的特徴量を用いることにより, 音声認識性能が向上することが知られている. これらの手法では特徴パラメータの時間軌跡を操作している. この時間軌跡を周波数次元で表したものは変調スペクトルと呼ばれる. よってCMS法や動的特徴量は, 変調スペクトルを操作しているものとみなせる. また音声認識情報のほとんどが1〜16Hzの変調周波数バンドに存在することが明らかになってきた. そこで本研究では, 音声認識情報を担う変調スペクトル成分のみを特徴量として用い, 数字音声認識実験を行った. 広く用いられているRASTAではIIRフィルタを用いて約1〜12Hzの変調周波数バンドを抽出しているのに対し, 本論文では位相ひずみの少ないFIRフィルタを用いることにより認識性能が向上することを確認した. また, この特徴量と一般によく用いられている動的特徴量を含めたMFCCを種々の雑音環境(SNR 10dB)において比較した結果, 認識誤り率が平均3%改善されることを確認した. 更に重要な変調周波数バンドを複数のバンドに分割すると, 認識誤り率が平均8%改善された.
著者
金寺 登 荒井 隆行 岡田 賢治 浅井 健司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.155, pp.67-72, 2003-06-20

音声特微量の時間軌跡をフーリェ変換したものは変調スペクトルと呼ばれ,音声の認識には特定の変調スペクトルが重要であることが知られている.本報告ではよ音声認識にとって変調スペクトルの各成分がどの程度重要であるかを示す貢献度に応じて変調スペクトルを強調した音声認識特微量を提案する.自動音声認識実験の結果,提案した特微量は,雑音環境下において音声認識性能が約5%改善されることを確認した.
著者
金寺 登 Hynek Hermansky 荒井 隆行 船田 哲男
出版者
情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.120, pp.15-22, 1997-12-11

CMS法や動的特徴は変調周波数特性を操作することにより音声認識性能が向上することが知られているが、どの変調周波数がどの程度重要であるのかという定量的な検討は行われていない。そこで本研究では、様々な変調周波数特性を持った入力に対し、音声認識性能の違いを種々の雑音環境、認識方式、特徴量のもとで調べた。その結果、以下のことが分かった: ) 言語情報のほとんどが1?16 Hzの変調周波数帯域に存在し、その中でも4 Hz付近が最も重要である。) 変調スペクトルにおいては位相情報も重要である。) 4 Hz付近の変調周波数を含む特徴量を用いることで動的特徴量と同等以上の結果が得られる。) 適切な中心周波数と帝域幅をもつ複数のサブバンドを変調周波数上で用いることにより、認識性能がさらに向上する。We report on the effect of band-pass filtering of the time trajectories of spectral envelopes on speech recognition. Several types of recognizers, several types of features, and several types of filters are studied. Results indicate the relative importance of different components of the modulation spectrum of speech for ASR. General conclusions are: (1) most of the useful linguistic information is in modulation frequency components from the range between 1 and 16 Hz, with the dominant component at around 4 Hz, (2) it is important to preserve the phase information in modulation frequency domain, (3) The features which include components at around 4 Hz in modulation spectrum outperform the conventional delta features, (4) The features which represent the several modulation frequency bands with appropriate center frequency and band width increase recognition performance.