文献一覧: 世木寛之 (著者)

13 0 0 0 音声認識を利用した放送用ニュース字幕制作システム

著者: 安藤彰男今井亨小林彰夫本間真一後藤淳清山信正三島剛小早川健佐藤庄衛尾上和穂世木寛之今井篤松井淳中村章田中英輝都木徹宮坂栄一磯野春雄
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日: vol.84, no.6, pp.877-887, 2001-06-01
被引用文献数: 57

テレビニュース番組に対する字幕放送を実現するためには, リアルタイムで字幕原稿を作成する必要がある.欧米では特殊なキーボード入力により, ニュースの字幕原稿が作成されているが, 日本語の場合には, 仮名漢字変換などに時間がかかるため, アナウンサーの声に追従して字幕原稿を入力することは難しい.そこで, 音声認識を利用した, 放送ニュース番組用の字幕制作システムを開発した.このシステムは, アナウンサーの音声をリアルタイムで認識し, 認識結果中の認識誤りを即座に人手で修正して, 字幕原稿を作成するシステムである.NHKでは, 本システムを利用して, 平成12年3月27日から, ニュース番組「ニュース7」の字幕放送を開始した.

https://ci.nii.ac.jp/naid/110003184136

1 0 0 0 OA 3-5 ラジオ第2の番組「株式市況」と「気象通報」のための音声合成を利用した自動放送システム(第3部門放送方式・放送現業)

著者: 世木寛之妹尾真澄小滝邦宏栗原清細谷宏生飯島慎一倉田淳渋谷朋寛
出版者: 一般社団法人映像情報メディア学会
雑誌: 映像情報メディア学会冬季大会講演予稿集 2014 (ISSN:13434357)
巻号頁・発行日: pp.3-5-1_-_3-5-1_, 2014-12-17 (Released:2017-06-05)

2022-02-17 05:38:17
1 + 0 Twitter

1 0 0 0 3-5 ラジオ第2の番組「株式市況」と「気象通報」のための音声合成を利用した自動放送システム(第3部門放送方式・放送現業)

著者: 世木寛之妹尾真澄小滝邦宏栗原清細谷宏生飯島慎一倉田淳渋谷朋寛
出版者: 一般社団法人映像情報メディア学会
雑誌: 映像情報メディア学会冬季大会講演予稿集 (ISSN:13434357)
巻号頁・発行日: vol.2014, pp.3-5-1_-_3-5-1_, 2014

2020-08-19 10:07:11
1 + 0 Twitter

1 0 0 0 ニュース番組の収録音声を利用した波形接続型音声合成システム

著者: 世木寛之田高礼子清山信正都木徹
出版者: 情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.50, no.2, pp.575-586, 2009-02-15
被引用文献数: 1

大規模な音声データベースから音声データを選択して接続する波形接続型音声合成が提案されている.この音声合成方式で利用される大規模音声データベースは,音韻バランスなどを考慮して選定された文章を,音声合成に適した話速やスタイルで読み上げることで作成されることが多い.一方,放送局では過去に放送された番組が大量に保存されているため,これらを音声データベースとして利用することが考えられる.本研究では,ニュース番組の収録音声を,波形接続型音声合成システムの音声データベースとして利用することを試みた.高い頻度で音声データベースに存在する音素列を,前後の音素環境を考慮して抽出した"音素環境依存音素列"を探索単位として合成音を作成し,5段階のオピニオン評価実験を行った結果,MOSは4.01となり,「不自然な部分はあるが気にならない」という自然性を持つ合成音が得られた.特に,全体の39.8%が5の「自然である」と評価され,自然音声と変わらない品質の合成音がかなりの頻度で作成されていることが分かった.次に,目標スコアを用いた場合と,用いない場合の合成音とを比較したところ,MOSの差は0.18となり,音声データベースの発話内容と合成する文が類似している場合には,必ずしも韻律予測せず目標スコアを考慮しなくても,自然性の高い合成音を作成できる可能性が示された.Proposals have been made to implement a system that generates synthesized speech by concatenating segments of speech stored in large databases. While these databases are often created by recording sentences with a specific phonetic balance, read at a rate and in a style that are optimal for speech synthesis, this paper explores an alternative method of database creation, one that utilizes broadcast materials archived in networks. In our study, we used samples of recorded speech from news programs to create a speech database. An assessment of speech generated by the speech synthesis method using "context dependent phoneme sequences" as search units yielded the mean opinion score (MOS) of 4.01 in a one-to-five-scale rating. Overall, the samples were considered "somewhat unnatural but not bothersome." In particular, 39.8% of the entire samples scored 5.0, demonstrating their highly natural-sounding quality. In addition, we compared the evaluation on "synthesized speech with target scores" and that on "synthesized speech without target scores." The difference of MOS was 0.18. This result confirmed that prosody prediction or target scores are not necessarily required to create synthesized speech of natural-sounding quality when the content of input sentences is similar to the content of sentences stored in the database.

2020-04-10 13:12:12
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110007970353

1 0 0 0 OA 音声合成のためのテンプレートを用いた録音文セット生成システムとラジオ番組「気象通報」への適用について

著者: 世木寛之田高礼子清山信正都木徹斎藤英雄小澤愼治
出版者: 一般社団法人映像情報メディア学会
雑誌: 映像情報メディア学会誌 (ISSN:13426907)
巻号頁・発行日: vol.65, no.1, pp.76-83, 2011-01-01 (Released:2011-04-01)
参考文献数: 24
被引用文献数: 1 1

The design method of a sentence set for a speech-synthesis database strongly influences the quality of the synthesized speech. To minimize the costs associated with making the speech recordings and constructing the speech database, the number of the sentence set should be limited. However, if a sentence set does not include sufficient data, the quality of the synthesized speech can be inadequate. In this paper, we propose a method for generating a sentence set from templates. When applied to the templates in the "Weather Report" radio program, the proposed method reduced the number of the sentence set to less than several percent of that required by a comparison method. In addition, the mean opinion score of speech samples synthesized using the proposed method was 4.32 on a five-point scale.

2019-09-24 17:43:27
1 + 0 Twitter

1 0 0 0 SP2000-11 話者クラス音響モデルのための学習データの自動選択手法

著者: 佐藤庄衛世木寛之尾上和穂今井亨田中秀樹安藤彰男
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日: vol.100, no.136, pp.9-15, 2000-06-15
被引用文献数: 4

ニュース番組に対する自動字幕放送の字幕付与率向上を目的とした適応音響モデル作成法を提案する.提案手法では, 大規模学習音声データベースから適応データを選択する方法として, GMMを用いた2段階クラスタリングを行い, クラスタごとに適応音響モデルを作成する.本手法を用いて, 4つのニュース番組1日分の認識実験を行った結果, クラスタ数を12としたときに最大の効果が得られ, 本手法を用いないベースラインに比べ, 33%のWER削減率, 25%のデコード所要時間削減率が得られた.また, 音響モデルの決定に使用する入力音声を文頭の0.4秒に制限してもモデル選択精度が変わらなかった.この場合, 認識に使用する音響モデルの決定に必要となる時間を考慮した全体の所要時間でも18%の削減率が得られた.

2011-04-22 03:15:05
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110003297617