著者
中島 康之 陸 洋 菅野 勝 柳原 広昌 米山 暁夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.5, pp.1361-1371, 2000-05-20
被引用文献数
23

キーワードスポッティングやコンテンツベースのオーディオビジュアル検索システムにおいては動画像のショット切換り点の検出やオーディオ情報の自動分類が非常に重要な課題になる.本論文では, MPEG符号化データからオーディオ情報をサブバンド上で高速に分類する手法を提案する.まず無音区間をサブバンドエネルギーの分散を用いて検出し, 次に有音区間に対してサブバンドデータの時間的エネルギーの疎密度, 平均サブバンド数とサブバンド重心を用いて音楽, 音声, 歓声雑音の3種類のクラスに分類した.識別法としてはクラス数や識別条件が増加するに従い複雑になるしきい値法に代わってBayes決定における正規分布に対する最適識別関数を用いた.分類実験では, MPEGオーディオデータを1秒単位に分類し, 90%以上の精度で無音や音声区間を検出することができ, 検出処理はMPEGオーディオ復号処理時間の1/6以下で検出が可能になった.