著者
安藤 彰男 今井 亨 小林 彰夫 本間 真一 後藤 淳 清山 信正 三島 剛 小早川 健 佐藤 庄衛 尾上 和穂 世木 寛之 今井 篤 松井 淳 中村 章 田中 英輝 都木 徹 宮坂 栄一 磯野 春雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.877-887, 2001-06-01
被引用文献数
57

テレビニュース番組に対する字幕放送を実現するためには, リアルタイムで字幕原稿を作成する必要がある.欧米では特殊なキーボード入力により, ニュースの字幕原稿が作成されているが, 日本語の場合には, 仮名漢字変換などに時間がかかるため, アナウンサーの声に追従して字幕原稿を入力することは難しい.そこで, 音声認識を利用した, 放送ニュース番組用の字幕制作システムを開発した.このシステムは, アナウンサーの音声をリアルタイムで認識し, 認識結果中の認識誤りを即座に人手で修正して, 字幕原稿を作成するシステムである.NHKでは, 本システムを利用して, 平成12年3月27日から, ニュース番組「ニュース7」の字幕放送を開始した.
著者
松井 淳 本間 真一 小早川 健 尾上 和穂 佐藤 庄衛 今井 亨 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.87, no.2, pp.427-435, 2004-02-01
参考文献数
11
被引用文献数
22

スポーツ中継番組の字幕放送を,音声認識によって拡充するため,放送音声を積極的に言い換えるリスピーク方式を提案する.ソルトレークシティオリンピック中継のスキージャンプ団体の放送音声と,本方式により言い換えを行った字幕用音声をそれぞれ音声認識した結果,単語正解精度が45.6%から96.8%に改善した.また,リスピークにおいて積極的に言い換える効果を調べるため,実際の字幕放送と同様の条件下で採取した発話内容について言い換えのパターンを五つに分類し,それぞれのパープレキシティ削減率を比較した結果,語の補完による言い換えが7.3%と最も効果が高かった.字幕放送の実質的な性能を左右する文正解率については,言い換えがおうむ返しによるリスピークに比べて,スピードスケートで8.8%,スキージャンプで6.6%向上した.NHKでは,本方式を利用することにより,口語的な発話スタイルを多く含んだソルトレークシティオリンピック中継(2002年3月),及び,第52目NHK紅白歌合戦(2001年12月)の字幕放送を実現させた.
著者
今井 亨 松井 章典
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 B (ISSN:13444697)
巻号頁・発行日
vol.J105-B, no.5, pp.454-457, 2022-05-01

マイクロストリップアンテナの素子外側近傍に,水平方向に置かれた金属柱が放射特性に与える影響についての検討を加えた.金属柱を付加することにより放射指向性が鋭角化し,素子単体に比べ2 dB程度の高利得化を図ることが可能となる設計資料を得た.
著者
今井 亨 奥 貴裕 小林 彰夫
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.4, pp.1-6, 2011-10-21
被引用文献数
1

テレビ番組の音声を文字で伝える字幕放送は,聴覚障害者や高齢者への重要な情報保障手段の一つである.1985 年の字幕放送開始以来,リアルタイムの日本語文字入力方法が確立されていなかったため,字幕が付与される番組は長い間事前収録番組に限られていた.NHK では,他の研究機関とも連携してニュース音声認識の研究を進め,世界に先駆けて 2000 年に音声認識によるニュース番組のリアルタイム字幕放送を開始した.番組音声を直接認識する本ダイレクト方式の実用化後,スポーツ番組の実況アナウンス等の復唱音声を認識するリスピーク方式の字幕制作システムの実用化などにより,リアルタイム字幕放送は年々拡充されるようになった.また,両方式を併用して認識性能と運用性を高めた,ハイブリッド方式のニュース番組用字幕制作システムの実用化も,現在検討を進めている.本稿では,字幕放送の現状と音声認識を利用した各種字幕制作システムを紹介するとともに,その技術的特徴と実用化の経緯について述べる.Closed-captioning for broadcast, which displays spoken words as texts on the TV screen, is one of important media for the hearing impaired and the elderly. Since starting in 1985, closed-captioning has been provided only to prerecorded TV programs due to lack of a real-time input method of Japanese texts. NHK has done extensive research on speech recognition for news with other research institutes and led the world in real-time closed-captioning for broadcast news by speech recognition in 2000. Besides the direct method recognizing the original program sound, NHK realized a re-speaking method where rephrased utterances by another speaker are recognized for captioning of sports programs, resulting in expansion of live closed-captioning every year. Also a new hybrid method combined with both methods will be put into practical use for more accurate and efficient captioning of news programs soon. This paper introduces current situation of closed-captioning for live broadcast and the real-time closed-captioning systems with their technological features and the ways how they were implemented.
著者
本間真一 小林 彰夫 佐藤庄衛 今井 亨 安藤 彰男 宇津呂 武仁 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.55, pp.29-34, 2001-06-01
参考文献数
12
被引用文献数
1

我々は、ニュース解説を対象にした音声認識の研究を行っている。これまでの研究では、解説音声は原稿読み上げ音声と異なる音響的特徴および言語的特徴をもつことや、学習データ量も不足していることから、まだ十分な認識精度は得られていない。そこで本稿では、比較的多くのデータ量が得られる講演スタイルの解説番組「あすを読む」を対象にした音声認識について検討を行う。ニュース原稿と「あすを読む」の書き起こしの混合による言語モデルの適応化、言語モデルの学習テキストと発音辞書におけるフィラーの扱いの見直し、音響モデルの話者適応などを行った結果、単語正解精度が67.4%から84.9 %まで改善した。We are studying speech recognition for news commentary. So far we haven't achieved satisfied accuracy for it, because speech of news commentary has different linguistic and acoustic features from read speech and supplies insufficient training data. Therefore, this paper treats speech recognition of a broadcast commentary program called "Asu wo Yomu (Reading Tomorrow)", which has rather more training data. We adapted language models by mixing the news manuscripts and transcriptions of "Asu wo Yomu" in their training texts, changed how to treat pause fillers in the training texts and word lexicon, and carried out speaker adaptation of acoustic models and so on. As a result, we improved the word accuracy from 67.4% to 84.9%.
著者
安藤彰男 今井 亨
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.90, pp.25-30, 1995-09-14
参考文献数
8
被引用文献数
3

将来のマルチメディア時代において、対話的に視聴する放送サービスを実現するため、音声対話システムの研究を進めている。その第一段階として、音声によって放送番組の検索・リクエストを行う実験システムを構築した。本システムでは、自由発声された音声中から、番組ジャンルや番組名などのキーワードを抽出するワードスポッティング型の音声認識方式を採用している。本システムのために新たに開発したワードスポッティング法を用いて、女性話者4名が発声した音声を認識する不特定話者認識実験を行ったところ、従来法による認識率が47%であったのに対し、86%の認識率を得た。A TV program retrieval system based on speech recognition has been developed as a part of a spoken dialogue system which will be useful as one of multimedia broadcasting services. The system spots a keyword such a category or a title of a program in spontaneous speech based on a new word spotting method and show the corresponding program on the TV display. Experiments showed that the average recognition accuracy of speaker in dependent recognition for 4 female speakers is improved from 47% to 86% by using the new word spotting method.
著者
松井 淳 加藤 直人 小林 彰夫 今井 亨 田中 英輝 安藤 彰男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.108, pp.211-216, 1999-12-20
参考文献数
7

ニュースのリアルタイム字幕作成を目的とした音声認識には一般のタスクと違う特徴がある.すなわち発声される可能性のあるテキスト,あるいはそれに類似したテキストを放送の前に入手できる特徴である.著者らはこの点に着目して認識性能を向上させる手法をいくつか研究してきた.これらは計算処理量の比較的重いものと軽いものがあり,軽い処理ほど放送直近の原稿を利用できる.本稿では,比較的処理の重い「言語モデルの適応化手法」,処理の軽い「放送直前の原稿を利用したn-gram確率の動的計算法」,および「未知語自動登録法」を使った実験を報告し,これらを組み合わせて利用することで単語正解精度が89.92%から92.36%に改善されたことを示す.Although it is almost impossible to guess what will be uttered beforehand in general speech recognition task, we can do this with high possibility in news dictation task thanks to the manuscripts that well hold the words to be uttered by announcers. In this paper, we describe three ways of utilizing such news manuscripts and will show empirically that they greatly helped improving the news recognition rate.
著者
本間 真一 松井 淳 佐藤 庄衛 小早川 健 尾上 和穂 今井 亨 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.160, pp.49-54, 2002-06-21
被引用文献数
11

NHKは,音声認識技術を利用したニュース番組の生字幕放送をすでに実現しているが,スポーツなどの生放送番組については,背景雑音や発話スタイル等の問題があるため,直接その番組音声に対してリアルタイムで音声認識を行うことは困難である.そこで我々は,「リスピーカー(re-speaker)」と呼ばれる話者を起用し,この話者が番組音声を聞きながらその内容を言い直し,その声を音声認識することにより生放送番組の字幕放送を実現した.本稿では,ソルトレークシティーオリンピックの生中継において実際に使用された生字幕放送ための音声認識システムと,新たに構築した言語モデルおよび音響モデルの概要を説明する.また,音声認識率やテストセットパープレキシティーなどをもとに,リスピーカーによる言い直しの効果について報告する.
著者
佐藤 庄衛 世木 寛之 尾上 和穂 今井 亨 田中 秀樹 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.136, pp.9-15, 2000-06-15
被引用文献数
4

ニュース番組に対する自動字幕放送の字幕付与率向上を目的とした適応音響モデル作成法を提案する.提案手法では, 大規模学習音声データベースから適応データを選択する方法として, GMMを用いた2段階クラスタリングを行い, クラスタごとに適応音響モデルを作成する.本手法を用いて, 4つのニュース番組1日分の認識実験を行った結果, クラスタ数を12としたときに最大の効果が得られ, 本手法を用いないベースラインに比べ, 33%のWER削減率, 25%のデコード所要時間削減率が得られた.また, 音響モデルの決定に使用する入力音声を文頭の0.4秒に制限してもモデル選択精度が変わらなかった.この場合, 認識に使用する音響モデルの決定に必要となる時間を考慮した全体の所要時間でも18%の削減率が得られた.
著者
今井 亨 シュワルツ リチャード
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.115, pp.75-82, 1997-06-20
被引用文献数
4

放送ニュース音声あるいはテキストからの話題抽出は、ストーリーの分類や検索、あるいは大語彙連続音声認識における言語的制約への利用が期待できる。本報告では、放送ニュースの各ストーリーから、関連する詳細な話題を複数個、同時に抽出するというタスクを設定し、数千の話題を対象にする。提案する話題混合モデルは、話題が単語毎に遷移し、話題毎の単語出力確率に従って、話題が単語を出力するというモデルであり、どの話題も意味しない一般的な単語を吸収するための特別な話題を持つ。話題混合モデルは一種のHMMであり、EMアルゴリズムによって、各話題は、その話題を直接意味する単語 (キーワード) をより多く出力するように学習される。英語ニュースのテキストおよび音声認識結果を入力とした話題抽出実験において、従来モデルよりも高い話題適合率を示した。