文献一覧: 佐藤庄衛 (著者)

13 0 0 0 音声認識を利用した放送用ニュース字幕制作システム

著者: 安藤彰男今井亨小林彰夫本間真一後藤淳清山信正三島剛小早川健佐藤庄衛尾上和穂世木寛之今井篤松井淳中村章田中英輝都木徹宮坂栄一磯野春雄
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.84, no.6, pp.877-887, 2001-06-01
被引用文献数: 57

テレビニュース番組に対する字幕放送を実現するためには, リアルタイムで字幕原稿を作成する必要がある.欧米では特殊なキーボード入力により, ニュースの字幕原稿が作成されているが, 日本語の場合には, 仮名漢字変換などに時間がかかるため, アナウンサーの声に追従して字幕原稿を入力することは難しい.そこで, 音声認識を利用した, 放送ニュース番組用の字幕制作システムを開発した.このシステムは, アナウンサーの音声をリアルタイムで認識し, 認識結果中の認識誤りを即座に人手で修正して, 字幕原稿を作成するシステムである.NHKでは, 本システムを利用して, 平成12年3月27日から, ニュース番組「ニュース7」の字幕放送を開始した.

https://ci.nii.ac.jp/naid/110003184136

7 0 0 0 言い換えを利用したリスピーク方式によるスポーツ中継のリアルタイム字幕制作(音声,聴覚)

著者: 松井淳本間真一小早川健尾上和穂佐藤庄衛今井亨安藤彰男
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.87, no.2, pp.427-435, 2004-02-01
参考文献数: 11
被引用文献数: 22

スポーツ中継番組の字幕放送を,音声認識によって拡充するため,放送音声を積極的に言い換えるリスピーク方式を提案する.ソルトレークシティオリンピック中継のスキージャンプ団体の放送音声と,本方式により言い換えを行った字幕用音声をそれぞれ音声認識した結果,単語正解精度が45.6%から96.8%に改善した.また,リスピークにおいて積極的に言い換える効果を調べるため,実際の字幕放送と同様の条件下で採取した発話内容について言い換えのパターンを五つに分類し,それぞれのパープレキシティ削減率を比較した結果,語の補完による言い換えが7.3%と最も効果が高かった.字幕放送の実質的な性能を左右する文正解率については,言い換えがおうむ返しによるリスピークに比べて,スピードスケートで8.8%,スキージャンプで6.6%向上した.NHKでは,本方式を利用することにより,口語的な発話スタイルを多く含んだソルトレークシティオリンピック中継(2002年3月),及び,第52目NHK紅白歌合戦(2001年12月)の字幕放送を実現させた.

2016-12-19 21:45:14
7 + 8 Twitter

https://ci.nii.ac.jp/naid/110003171028

1 0 0 0 OA 番組制作支援のための音声認識による書き起こしシステム

著者: 三島剛萩原愛子伊藤均小森智康堀川大輔川瀬直也佐藤庄衛
出版者: 一般社団法人映像情報メディア学会
雑誌: 映像情報メディア学会誌 (ISSN:13426907)
巻号頁・発行日: vol.74, no.4, pp.729-735, 2020 (Released:2020-06-26)
参考文献数: 11

放送局では番組制作に必要な構成資料や放送原稿などを作成するため,取材した映像素材の発話を文字に変換する書き起こしを活用している.しかし書き起こしを制作する作業は多くの労力を要し,迅速な番組制作の妨げになっている.そのためわれわれは音声認識技術を用いた書き起こし支援技術の研究を進めている.この中では書き起こしの作業時間短縮に加え,記者会見などのライブ素材の書き起こしや複数人での協調作業など,番組制作のワークフローを考慮することで迅速に番組を制作して視聴者に情報を届けることを目指している.本システムの有効性を検証するため放送現場に試行用のシステムを導入し,改善項目の収集や利用状況の調査を継続して実施した.この試行運用を契機に書き起こしシステムの有用性が放送現場に認められ,現在はNHKの全放送局で本システムが活用されている.

2020-08-18 21:55:14
1 + 0 Twitter

1 0 0 0 講演スタイルの解説番組を対象にした音声認識の検討

著者: 本間真一小林彰夫佐藤庄衛今井亨安藤彰男宇津呂武仁中川聖一
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日: vol.2001, no.55, pp.29-34, 2001-06-01
参考文献数: 12
被引用文献数: 1

我々は、ニュース解説を対象にした音声認識の研究を行っている。これまでの研究では、解説音声は原稿読み上げ音声と異なる音響的特徴および言語的特徴をもつことや、学習データ量も不足していることから、まだ十分な認識精度は得られていない。そこで本稿では、比較的多くのデータ量が得られる講演スタイルの解説番組「あすを読む」を対象にした音声認識について検討を行う。ニュース原稿と「あすを読む」の書き起こしの混合による言語モデルの適応化、言語モデルの学習テキストと発音辞書におけるフィラーの扱いの見直し、音響モデルの話者適応などを行った結果、単語正解精度が67.4%から84.9 %まで改善した。We are studying speech recognition for news commentary. So far we haven't achieved satisfied accuracy for it, because speech of news commentary has different linguistic and acoustic features from read speech and supplies insufficient training data. Therefore, this paper treats speech recognition of a broadcast commentary program called "Asu wo Yomu (Reading Tomorrow)", which has rather more training data. We adapted language models by mixing the news manuscripts and transcriptions of "Asu wo Yomu" in their training texts, changed how to treat pause fillers in the training texts and word lexicon, and carried out speaker adaptation of acoustic models and so on. As a result, we improved the word accuracy from 67.4% to 84.9%.

2019-05-18 22:45:24
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002917233

1 0 0 0 生字幕放送のための音声認識 : システムの概要とリスピークの効果

著者: 本間真一松井淳佐藤庄衛小早川健尾上和穂今井亨安藤彰男
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日: vol.102, no.160, pp.49-54, 2002-06-21
被引用文献数: 11

NHKは,音声認識技術を利用したニュース番組の生字幕放送をすでに実現しているが,スポーツなどの生放送番組については,背景雑音や発話スタイル等の問題があるため,直接その番組音声に対してリアルタイムで音声認識を行うことは困難である.そこで我々は,「リスピーカー(re-speaker)」と呼ばれる話者を起用し,この話者が番組音声を聞きながらその内容を言い直し,その声を音声認識することにより生放送番組の字幕放送を実現した.本稿では,ソルトレークシティーオリンピックの生中継において実際に使用された生字幕放送ための音声認識システムと,新たに構築した言語モデルおよび音響モデルの概要を説明する.また,音声認識率やテストセットパープレキシティーなどをもとに,リスピーカーによる言い直しの効果について報告する.

2012-07-29 13:30:08
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110003295542

1 0 0 0 SP2000-11 話者クラス音響モデルのための学習データの自動選択手法

著者: 佐藤庄衛世木寛之尾上和穂今井亨田中秀樹安藤彰男
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日: vol.100, no.136, pp.9-15, 2000-06-15
被引用文献数: 4

ニュース番組に対する自動字幕放送の字幕付与率向上を目的とした適応音響モデル作成法を提案する.提案手法では, 大規模学習音声データベースから適応データを選択する方法として, GMMを用いた2段階クラスタリングを行い, クラスタごとに適応音響モデルを作成する.本手法を用いて, 4つのニュース番組1日分の認識実験を行った結果, クラスタ数を12としたときに最大の効果が得られ, 本手法を用いないベースラインに比べ, 33%のWER削減率, 25%のデコード所要時間削減率が得られた.また, 音響モデルの決定に使用する入力音声を文頭の0.4秒に制限してもモデル選択精度が変わらなかった.この場合, 認識に使用する音響モデルの決定に必要となる時間を考慮した全体の所要時間でも18%の削減率が得られた.

2011-04-22 03:15:05
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110003297617