著者
伊藤 彰則
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-112, no.10, pp.1-6, 2016-07-21

音声認識の特徴量抽出では,まず入力音声に時間窓をかけて局所的な信号を切り出し,音声信号の局所的な周波数情報を取り出す.この時間窓の位置を少しずつずらしながら分析を行うことで,音声の持つ周波数成分の時間変化を捉えることができる.このとき時間窓をずらす時間間隔がフレームシフトであり,典型的には 5ms~10ms に設定される.本稿では,このフレームシフトを 2 つの点から再考する.一つ目の視点は 「フレームシフトは 10ms で十分なのか?」 という点である.フレームに基づく処理は,音声信号が短い時間で大きく変化しないことを前提としているが,破裂子音などではこの前提がそもそも成立していない.そこで,10ms ごとのフレームの先頭位置のずれによって,抽出される特徴量が大きく変化することを実験的に示す.また,偶然によるフレーム位置の変動に起因する特徴量変動に対応するため,フレーム位置をずらした学習サンプルを学習に用いる方法を提案する.二つ目の視点は,「フレーム位置のずれが学習によって吸収できるのであれば,フレームシフトはもっと長くてもよいのではないか?」 という点である.フレームシフトを実験的に 60ms 程度まで長くして実験を行ったところ,フレームシフト 40ms ではフレームシフト 10ms を越える認識性能が得られ,50ms でも 10ms と同程度の認識性能が得られた.これらの条件では 1 状態 HMM (すなわち GMM) が使われており,認識のための計算量の大幅な削減が期待できる.

言及状況

Yahoo!知恵袋 (1 users, 1 posts)

これは、機械学習というよりは、音声処理に関する手法です。 私がいろいろ説明するよりは、伊藤先生の論文を読まれるとわかりやすいのではないかと思います https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=169881&item_no=1&attribute_id=1&file_no ...

Twitter (1 users, 1 posts, 0 favorites)

@Nonohoo もしやGMMのスペシャリスト……!? 今ゼミの輪講的なやつでこの論文( https://t.co/ohKdNl5ZQ9 )読んでまして、全体的な内容はわかったんですが、3.3実験で混合分布数を1〜8まで変化させるっていうところがよくわからなくて困ってます いくつのガウス分布を混合させているかを示すパラメータなのか…

収集済み URL リスト