著者
安藤 彰男 今井 亨 小林 彰夫 本間 真一 後藤 淳 清山 信正 三島 剛 小早川 健 佐藤 庄衛 尾上 和穂 世木 寛之 今井 篤 松井 淳 中村 章 田中 英輝 都木 徹 宮坂 栄一 磯野 春雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.877-887, 2001-06-01
被引用文献数
57

テレビニュース番組に対する字幕放送を実現するためには, リアルタイムで字幕原稿を作成する必要がある.欧米では特殊なキーボード入力により, ニュースの字幕原稿が作成されているが, 日本語の場合には, 仮名漢字変換などに時間がかかるため, アナウンサーの声に追従して字幕原稿を入力することは難しい.そこで, 音声認識を利用した, 放送ニュース番組用の字幕制作システムを開発した.このシステムは, アナウンサーの音声をリアルタイムで認識し, 認識結果中の認識誤りを即座に人手で修正して, 字幕原稿を作成するシステムである.NHKでは, 本システムを利用して, 平成12年3月27日から, ニュース番組「ニュース7」の字幕放送を開始した.
著者
今井 篤 清山 信正 都木 徹
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会年次大会講演予稿集 (ISSN:13431846)
巻号頁・発行日
vol.2014, pp.17-5-1_-_17-5-2_, 2014

We studied about the basic processing method to give intended emotional feelings to the calm voices. We focused on change of the spectral characteristics of vowels between the calm voices and the emotional one. So, we examined statistically about the difference of vowel's power and F0. The result showed typical trend about "power" factor in the provided 2 parameters. We propose a primitive speech processing method to control the vowel's spectrum to convert the speech type (=quality) from the calm to the emotional expression.
著者
田澤 直幸 岩鼻 幸男 今井 篤 清山 信正 都木 徹 鳥原 信一
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会年次大会講演予稿集 2009 (ISSN:13431846)
巻号頁・発行日
pp._7-8-1_-_7-8-2_, 2009-08-26 (Released:2017-05-24)

This paper describes a trial study for reproducing adequate very high-speed speech for visually handicapped person. At times, visually handicapped people rely on the use of recorded speech content such as in the case of reading some books or newspaper and so on. In such cases, many of them have wondered whether "rapid playback" might be possible because it is difficult to take a general view of the whole contents.
著者
小森 智康 都木 徹
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会冬季大会講演予稿集 (ISSN:13434357)
巻号頁・発行日
vol.2009, pp._4-9-1_, 2009

We conducted subjective evaluation on the relationship between TV volume and background sound level for the elderly. The participants themselves found no hearing problem, but they had small hearing loss. The results showed that positive subjects of recruitment phenomena annoyed louder than negative subjects when they listened at loud volume.
著者
世木 寛之 田高 礼子 清山 信正 都木 徹
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.2, pp.575-586, 2009-02-15
被引用文献数
1

大規模な音声データベースから音声データを選択して接続する波形接続型音声合成が提案されている.この音声合成方式で利用される大規模音声データベースは,音韻バランスなどを考慮して選定された文章を,音声合成に適した話速やスタイルで読み上げることで作成されることが多い.一方,放送局では過去に放送された番組が大量に保存されているため,これらを音声データベースとして利用することが考えられる.本研究では,ニュース番組の収録音声を,波形接続型音声合成システムの音声データベースとして利用することを試みた.高い頻度で音声データベースに存在する音素列を,前後の音素環境を考慮して抽出した"音素環境依存音素列"を探索単位として合成音を作成し,5段階のオピニオン評価実験を行った結果,MOSは4.01となり,「不自然な部分はあるが気にならない」という自然性を持つ合成音が得られた.特に,全体の39.8%が5の「自然である」と評価され,自然音声と変わらない品質の合成音がかなりの頻度で作成されていることが分かった.次に,目標スコアを用いた場合と,用いない場合の合成音とを比較したところ,MOSの差は0.18となり,音声データベースの発話内容と合成する文が類似している場合には,必ずしも韻律予測せず目標スコアを考慮しなくても,自然性の高い合成音を作成できる可能性が示された.Proposals have been made to implement a system that generates synthesized speech by concatenating segments of speech stored in large databases. While these databases are often created by recording sentences with a specific phonetic balance, read at a rate and in a style that are optimal for speech synthesis, this paper explores an alternative method of database creation, one that utilizes broadcast materials archived in networks. In our study, we used samples of recorded speech from news programs to create a speech database. An assessment of speech generated by the speech synthesis method using "context dependent phoneme sequences" as search units yielded the mean opinion score (MOS) of 4.01 in a one-to-five-scale rating. Overall, the samples were considered "somewhat unnatural but not bothersome." In particular, 39.8% of the entire samples scored 5.0, demonstrating their highly natural-sounding quality. In addition, we compared the evaluation on "synthesized speech with target scores" and that on "synthesized speech without target scores." The difference of MOS was 0.18. This result confirmed that prosody prediction or target scores are not necessarily required to create synthesized speech of natural-sounding quality when the content of input sentences is similar to the content of sentences stored in the database.
著者
小森 智康 都木 徹 及川 靖広
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会誌 (ISSN:13426907)
巻号頁・発行日
vol.71, no.5, pp.J172-J178, 2017

高齢者では,聴力レベルの低下などの原因により,番組の背景音がうるさく感じてナレーションなどのダイアログが聞きとりにくくなることが知られている.背景音を小さくすることで,ダイアログは聞きとりやすくなるが,若年者にとっては番組演出の効果を小さくしすぎてしまうことがある.すなわち,若年者と高齢者にとって好ましい再生方法としては,背景音とダイアログのバランスを変えずに,音質も劣化させずに,聞きとりやすくする方法が必要となる.そのための基礎検討として,若年者および高齢者を対象として,ナレーションやセリフなどのダイアログと,ノイズや音楽などの背景音を,前および上や横方向に配置されるスピーカを使用し,ダイアログと背景音の再生方向を変えた場合のダイアログの聞きとりの正答率を調査した.単語と音楽の組合せでは,単語と音楽を前方向から再生する場合と比較して,単語を上方向から再生することで,高齢者で25%以上,若年者で15%以上,正答率が改善することを確認した.これらの実験結果により,空間的なマスキングリリースを利用することで,背景音がある場合に,その再生レベルを維持したままで,高齢者にも聞きとりやすい音響再生方法を実現するための知見を得たので報告する.
著者
世木 寛之 田高 礼子 清山 信正 都木 徹 斎藤 英雄 小澤 愼治
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会誌 (ISSN:13426907)
巻号頁・発行日
vol.65, no.1, pp.76-83, 2011-01-01 (Released:2011-04-01)
参考文献数
24
被引用文献数
1 1

The design method of a sentence set for a speech-synthesis database strongly influences the quality of the synthesized speech. To minimize the costs associated with making the speech recordings and constructing the speech database, the number of the sentence set should be limited. However, if a sentence set does not include sufficient data, the quality of the synthesized speech can be inadequate. In this paper, we propose a method for generating a sentence set from templates. When applied to the templates in the "Weather Report" radio program, the proposed method reduced the number of the sentence set to less than several percent of that required by a comparison method. In addition, the mean opinion score of speech samples synthesized using the proposed method was 4.32 on a five-point scale.
著者
都木 徹 服部 有希子 小宮 恵 今井 篤 岸 憲史 伊藤 崇之
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 (ISSN:09151915)
巻号頁・発行日
vol.88, no.2, pp.478-487, 2005-02-01
被引用文献数
2

近年, コンピュータを用いて語学教育を支援するCALL (Computer Assisted Language Learning)システムの開発が盛んに行われている.本論文では, CALLシステムの一つとして, NHK教育テレビの語学番組「中国語会話」で利用することを目的に開発された声調学習ツール"声調弐号"及び"声調参号"を取り上げ, そのシステムの利用効果について述べる.これらのCALLシステムは, 模範音声と学習者音声の両者のピッチ軌跡を画面に比較表示するとともに, 学習者音声の韻律を模範音声の韻律に矯正した変換音声を聴取することができ, 視覚的にも聴覚的にも韻律に関する発音習得を支援することを目的としている.視聴者からは, 従来の模範音声と学習者音声を聞き比べるだけの場合より分かりやすいと好評であった.本システムで用いている視覚的・聴覚的学習支援の効果を明らかにするため, 番組とは独立に日本人に対して行った韻律に関する発音習得実験では, 特に学習者自身の音声とその韻律を矯正した音声を聞き比べる効果が高いことが示された.
著者
清山 信正 今井 篤 三島 剛 都木 徹 宮坂 栄一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.918-926, 2001-06-01
被引用文献数
11

一般に高齢者にとって, 早口で話された音声が聞き取りにくいと感じられる場合がある.これを補償するため, 発声者の声の特徴を残したまま「ゆっくり」した音声に変換する話速変換技術の開発が進められている.一方, ビデオの早見や音声内容の検索を目的に早口に変換する試みもあり, それらの話速変換技術の一部は既に実用に供されている.また, マルチメディアの発展により, ハードディスク上に記録された映像・音声を可変速で再生する環境も整いつつある.同時にテキスト音声合成の高品質化に伴い, 音声波形の継続時間長を直接制御する技術としても, 高品質な話速変換技術が不可欠である.本論文では, 話速変換技術の広範な応用とその品質の自然性向上を目的として, 無声区間も含めた伸縮による話速変換方式を提案するとともに, 高齢者に対する音声放送サービス向上を目指した小型の話速変換器の開発について報告する.
著者
小森 智康 今井 篤 清山 信正 田高 礼子 都木 徹 及川 靖広
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.113, no.76, pp.107-112, 2013-06-06

高齢者は放送番組の背景音(音楽・効果音)をうるさく感じたり,アナウンサーや役者の音声が不明瞭で聞きづらく感じたりすることがある.これに対し,家庭側(受信機側)で高齢者に適した番組音声に調整する装置の開発を進めている.音声区間(ナレーション・セリフと背景音が混在する区間)では,ステレオ背景音の無相関な成分を抑圧し,相関成分では音声の母音や子音の音響的な特徴をフィルタ処理により強調し,非音声(背景音だけの)区間は,ゲイン制御のみによる劣化のない抑圧を行なうことで,番組全体での音質劣化を抑制する手法を提案した.提案手法により6dB相当番組背景音を抑圧できることを主観評価で確認し,高齢者視聴実験により番組音が聞きとりやすくなることを確認した.