文献一覧: 中谷智広 (著者)

1 0 0 0 OA 音声のブラインド残響除去:最新の研究動向

著者: 木下慶介吉岡拓也中谷智広
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会基礎・境界ソサイエティ Fundamentals Review (ISSN:18820875)
巻号頁・発行日: vol.4, no.4, pp.301-310, 2011-04-01 (Released:2011-04-01)
参考文献数: 37
被引用文献数: 2 2

室内で収録された音声信号には,音源からマイクロホンへ直接到達する直接音に加えて,壁や床などに反射して遅れてマイクロホンへ到達する残響が含まれている.この残響は収音した音声信号の明瞭性を低下させるとともに,コンピュータによる自動音声認識をはじめとする多くの音響信号処理アプリケーションの性能低下を招く原因となる.このため,収録音からの残響の除去は,古くから,実環境音響信号処理の実現に向けた重要課題とされてきた.その中でも特に重要度の高い課題である,収録条件が与えられていない任意の条件で収録された音声に含まれる残響の除去(=ブラインド残響除去) の問題は,解決の困難なものとされており,多くの提案がなされてきた.本稿では,音声のブラインド残響除去の近年の幾つかの研究成果を挙げ,それらの特徴をまとめる.

2021-07-04 05:26:39
1 + 2 Twitter

1 0 0 0 劣決定音源分離のための分離音声のケプストラムスムージング

著者: 安齊祐美荒木章子牧野昭二中谷智広山田武志中村篤北脇信彦
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.68, no.2, pp.74-85, 2012-02-01
被引用文献数: 1

本論文では,音源信号のスパース性に基づき,時間周波数バイナリマスク(BM)を用いる音源分離手法におけるミュージカルノイズの低減を目的とした,分離音声のケプストラムスムージング(CSS)を提案する。CSSは,近年提案されたスペクトルマスクのケプストラムスムージング(CSM)で用いられるケプストラム領域でスムージングする考え方と,ケプストラム表現による音声特性の保持の制御という観点では,マスクではなくBMによって得られた分離音声を直接スムージングする方が好ましいという仮説とに基づいている。また,従来法(CSM)や提案法(CSS)と他のミュージカルノイズ低減手法の性能を実験により比較する。CSSでは,CSMと同程度のミュージカルノイズ低減性能を有し,更に目的音声の歪の小さい分離信号が得られた。

2015-03-17 23:30:16
1 + 1 Twitter

https://ci.nii.ac.jp/naid/110009327702

1 0 0 0 音声ストリーム分離法の提案と複数音声の同時認識の予備実験

著者: 奥乃博中谷智広川端豪
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.38, no.3, pp.510-523, 1997-03-15
被引用文献数: 6

本稿では,一般環境下での音声認識のための前処理として音響ストリーム分離を使用するうえでの問題点について検討する.本稿の前半では,音声ストリーム分離の方法を提案する.提案する方法は,調波構造ストリーム断片の抽出とそのグルーピング,および,入力音からすべての調波構造を除いた残差での非調波構造の補完から構成される.本稿の後半では,分離した音声ストリームを離散型単一コードブック型HMM?LRで認識するうえでの問題点を解明し,その解決策を提示する.提案する音声ストリーム分離方法で方向情報抽出のために用いたバイノーラル入力がスペクトル変形を引き起こし,音声認識に影響を与えることが判明した.この対策として,4方向で頭部音響伝達関数をかけた学習データでHMM?LRのパラメータを再学習する方法を提案した.2人の話者の500組の子音を含んだ発話(SN比0??3dB)の音声認識実験を5種類行い,音声ストリーム分離により上位10候補累積認識率に対する混合音による認識誤りを最大77%削減することができた.This paper reports the preliminary results of experiments on listening to several sounds at once.Two issues are addressed:segregating speech streams from a mixture of sounds,and interfacing speech stream segregation with automatic speech recognition(ASR).Speech stream segregation(SSS) is designed as three processes:extracting harmonic fragments;grouping these extracted harmonic fragments according to their directions;and substituting the non-harmonic residue of harmonic fragments for non-harmonic parts of each group.The main problem in interfacing SSS with HMM-based ASR is how to reduce the recognition errors caused by spectral distortion of segregated sounds mainly due to binaural input.Our solution is to re-train the parameters of the HMM with training data binauralized for four directions.Experiments with five sets of 500 mixtures of two women's/men's utterances of a word(SNR is 0dB to -3dB)showed that the error of up to the 10th candidate of word recognition was reduced up to 77% by speech stream segregation.

2014-07-29 16:15:10
1 + 5 Twitter

https://ci.nii.ac.jp/naid/110002721503

1 0 0 0 時変ガウス音源モデルと多チャネル自己回帰観測モデルに基づく最ゆう法による音響信号の残響除去(<小特集>ブラインド信号処理の技術とその応用論文)

著者: 中谷智広吉岡拓也木下慶介三好正人
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. A, 基礎・境界 (ISSN:09135707)
巻号頁・発行日: vol.92, no.5, pp.294-304, 2009-05-01
被引用文献数: 3

残響を伴って収音された音響信号に対する残響除去法の一つとして,音源信号の時変性に基づく方法を紹介し,その性質を数理的に分析する.このアプローチでは,音源信号を時変ガウス過程でモデル化するとともに室内伝達特性を多チャネル自己回帰過程でモデル化し,それらに基づき定まるゆう度関数を最大にするモデルパラメータを求めることで残響除去を実現する.本アプローチにより,比較的短い観測信号だけからでも良好な残響除去結果が得られることが,実験により確認されている.本論文では,特に,ゆう度関数を最大化する解の振舞いについて分析する.まず,解のあいまい性が適切に排除されている条件のもとで,ゆう度関数の期待値を最大化する解は厳密に正しい解に一致することを示す.また,観測信号の実現値に基づきゆう度関数を最大化する解は,観測信号が長くなるにつれて正しい解に近づくと予想されることを示す.更に,比較的短い観測信号に対しても,観測信号のレベルの時変性を考慮して最適化を行うことで,推定誤差の影響を緩和できることを考察する.

2014-04-23 18:15:08
1 + 1 Twitter

https://ci.nii.ac.jp/naid/110007384746

1 0 0 0 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)

著者: デルクロアマーク中谷智広渡部晋治
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日: vol.107, no.405, pp.55-60, 2007-12-13

一般に、雑音や残響の影響により音声認識率は低下する。これに対し、音声強調を前処理として用いると、時間的に変化する音響的な歪みをある程度低減することができるが、必ずしも音声認識性能を改善できるとはかぎらなかった。また、モデル適応技術を用いることで、音声強調処理後の音声と音響モデルのミスマッチをある程度低減することができるが、動的なミスマッチについては扱うことはできなかった。音声強調とモデル適応のより最適な組み合わせ法の開発が重要であると考えられる。本稿では、動的なミスマッチについても適切に低減できるモデル適応法を提案する。分散を静的な分散と動的な分散で構成されるパラメトリックモデルで表現し、適応処理に基づき、モデルパラメータを最適化する。実験により、残響除去を前処理として用いた場合に、認識誤りを80%削減できること、およびクリーン音声に近い5.4ることを示す。クリーン音声の場合と近い性能が得られた。

2010-05-26 22:00:15
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110006595673