著者
藤本 雅清 鷹尾 誠一 有木 康雄 松本 宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.68, pp.49-54, 2001-07-13
参考文献数
16

本研究では,社内で製作された商品の紹介映像を個々の商品区間へ分割(トピックセグメンテーション)し,商品名をインデックスとして付与するシステムの検討を行った.本研究におけるシステムでは,商品紹介映像の音声から音楽などの雑音を除去した後にキーワードスポッティングを行い,抽出された商品名を用いてトピックセグメンテーションを行っている.また,キーワードスポッティングにより商品名を抽出するためには,商品名辞書が必要となるが,本研究では,商品名辞書が事前に存在していない場合に,映像中のテロップ文字を利用して,オンラインで自動生成する手法についても検討を行った.実験の結果,商品名辞書が事前に存在している場合で約82%,商品名辞書を自動生成した場合で約60%の精度で区間分割を行うことができた.In this paper, we propose a method to segment goods catalog video into individual sections and index them. Our proposing method uses the keyword spotting which extract the keywords from noise reduced speech signal within the goods catalog video. In order to extract the keywords by using keyword spotting, the goods name dictionary is required. In this paper, we study a method to generate the goods name dictionary automatically, by using the video captions within the goods catalog video. As the experimental result, the proposed method could segment the individual goods sections with approximately 82% accuracy when the goods name dictionary is available, and with approximately 60% accuracy when goods name dictionary is generated automatically.
著者
山本 一公 中村 哲 武田 一哉 黒岩 眞吾 北岡 教英 山田 武志 水町 光徳 西浦 敬信 藤本 雅清
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.75, pp.101-106, 2003-07-18
被引用文献数
26 4

本稿では,SLP雑音下音声認識評価ワーキンググループの活動成果として,雑音 下音声認識評価用共通データベースAURORA-2Jと,その標準評価スクリプトによるベースライン評価結果について述べる.AURORA-2Jは,AURORAプロジェクトの AURORA-2データベースの日本語版として設計され,標準評価スクリプトも AURORA-2で配布されているスクリプトをベースとして開発されている.この共通 評価フレームワークにより,各機関における雑音環境下音声認識手法の性能を容 易に比較することが可能となり,雑音環境下音声認識手法の発展を促すことがで きると考えられる.また,自動車内における数字/コマンド発声データベースで あるAURORA-3Jの開発進捗状況についても述べる.This paper introduces a common database, an evaluation framework, and its baseline recognition result for noisy speech recognition, AURORA-2J, as an outcome of IPSJ-SIG SLP Noisy Speech Recognition Evaluation Working Group. AURORA-2J is designed as Japanized version of the AURORA-2 database and the evaluation framework is based on the AURORA-2 baseline scripts. This common evaluation framework enables to compare various noisy speech recognition techniques on a common ground. We hope more development of noisy speech recognition techniques using this evaluation framework. We also describe about AURORA-3J, digits and speech command database in car environments.
著者
藤本 雅清
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会誌 (ISSN:09135693)
巻号頁・発行日
vol.95, no.8, pp.754-758, 2012-08-01

音声区間検出(VAD:Voice Activity Detection)は,音声信号と音声以外の信号(非音声信号)が含まれる観測信号から音声信号が存在する時間区間を検出する技術である.VADは,様々な音声情報処理技術の入り口に位置することから,それらの性能を大きく左右する極めて重要な技術である.本稿では,VADの基本構成と評価方法,応用先について説明し,音声情報処理技術におけるVADの位置付けを明確にする.また,様々なVAD手法を紹介しつつ,過去10年間の世界的な研究動向を振り返り,今後の研究のあり方について述べる.
著者
重森 猛 金子 剛志 緒方 淳 藤本 雅清 有木 康雄 塚田 清志 濱口 伸 清瀬 基
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.618, pp.33-40, 2003-01-23
参考文献数
14
被引用文献数
6

本研究では、野球のラジオ実況中継音声に対して大語彙連続音声認識を行い、キーワードを抽出してハイライトシーンを検出することを目的としている。音声認織部をより頑健にするために、音響モデルでは、MLLR+MAP適応による教師あり、教師なし適応を行っている。この音響モデルの2段階適応を用いることにより、アナウンサーの話者性に適応することができ、ベースラインに比べ単語正解精度で約28%の改善が得られた。言語モデルでは、言語モデルの融合、選手名のクラス化、発音辞書の修正を行い、ベースラインに比べ単語正解精度で約13%の改善が得られた。それぞれの適応を統合することにより、単語正解精度で約38%の改善が得られた。