著者
安藤 彰男 今井 亨 小林 彰夫 本間 真一 後藤 淳 清山 信正 三島 剛 小早川 健 佐藤 庄衛 尾上 和穂 世木 寛之 今井 篤 松井 淳 中村 章 田中 英輝 都木 徹 宮坂 栄一 磯野 春雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.877-887, 2001-06-01
被引用文献数
57

テレビニュース番組に対する字幕放送を実現するためには, リアルタイムで字幕原稿を作成する必要がある.欧米では特殊なキーボード入力により, ニュースの字幕原稿が作成されているが, 日本語の場合には, 仮名漢字変換などに時間がかかるため, アナウンサーの声に追従して字幕原稿を入力することは難しい.そこで, 音声認識を利用した, 放送ニュース番組用の字幕制作システムを開発した.このシステムは, アナウンサーの音声をリアルタイムで認識し, 認識結果中の認識誤りを即座に人手で修正して, 字幕原稿を作成するシステムである.NHKでは, 本システムを利用して, 平成12年3月27日から, ニュース番組「ニュース7」の字幕放送を開始した.
著者
松井 淳 本間 真一 小早川 健 尾上 和穂 佐藤 庄衛 今井 亨 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.87, no.2, pp.427-435, 2004-02-01
参考文献数
11
被引用文献数
22

スポーツ中継番組の字幕放送を,音声認識によって拡充するため,放送音声を積極的に言い換えるリスピーク方式を提案する.ソルトレークシティオリンピック中継のスキージャンプ団体の放送音声と,本方式により言い換えを行った字幕用音声をそれぞれ音声認識した結果,単語正解精度が45.6%から96.8%に改善した.また,リスピークにおいて積極的に言い換える効果を調べるため,実際の字幕放送と同様の条件下で採取した発話内容について言い換えのパターンを五つに分類し,それぞれのパープレキシティ削減率を比較した結果,語の補完による言い換えが7.3%と最も効果が高かった.字幕放送の実質的な性能を左右する文正解率については,言い換えがおうむ返しによるリスピークに比べて,スピードスケートで8.8%,スキージャンプで6.6%向上した.NHKでは,本方式を利用することにより,口語的な発話スタイルを多く含んだソルトレークシティオリンピック中継(2002年3月),及び,第52目NHK紅白歌合戦(2001年12月)の字幕放送を実現させた.
著者
本間 真一 松井 淳 佐藤 庄衛 小早川 健 尾上 和穂 今井 亨 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.160, pp.49-54, 2002-06-21
被引用文献数
11

NHKは,音声認識技術を利用したニュース番組の生字幕放送をすでに実現しているが,スポーツなどの生放送番組については,背景雑音や発話スタイル等の問題があるため,直接その番組音声に対してリアルタイムで音声認識を行うことは困難である.そこで我々は,「リスピーカー(re-speaker)」と呼ばれる話者を起用し,この話者が番組音声を聞きながらその内容を言い直し,その声を音声認識することにより生放送番組の字幕放送を実現した.本稿では,ソルトレークシティーオリンピックの生中継において実際に使用された生字幕放送ための音声認識システムと,新たに構築した言語モデルおよび音響モデルの概要を説明する.また,音声認識率やテストセットパープレキシティーなどをもとに,リスピーカーによる言い直しの効果について報告する.
著者
佐藤 庄衛 世木 寛之 尾上 和穂 今井 亨 田中 秀樹 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.136, pp.9-15, 2000-06-15
被引用文献数
4

ニュース番組に対する自動字幕放送の字幕付与率向上を目的とした適応音響モデル作成法を提案する.提案手法では, 大規模学習音声データベースから適応データを選択する方法として, GMMを用いた2段階クラスタリングを行い, クラスタごとに適応音響モデルを作成する.本手法を用いて, 4つのニュース番組1日分の認識実験を行った結果, クラスタ数を12としたときに最大の効果が得られ, 本手法を用いないベースラインに比べ, 33%のWER削減率, 25%のデコード所要時間削減率が得られた.また, 音響モデルの決定に使用する入力音声を文頭の0.4秒に制限してもモデル選択精度が変わらなかった.この場合, 認識に使用する音響モデルの決定に必要となる時間を考慮した全体の所要時間でも18%の削減率が得られた.