著者
安藤 彰男 今井 亨 小林 彰夫 本間 真一 後藤 淳 清山 信正 三島 剛 小早川 健 佐藤 庄衛 尾上 和穂 世木 寛之 今井 篤 松井 淳 中村 章 田中 英輝 都木 徹 宮坂 栄一 磯野 春雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.6, pp.877-887, 2001-06-01
被引用文献数
57

テレビニュース番組に対する字幕放送を実現するためには, リアルタイムで字幕原稿を作成する必要がある.欧米では特殊なキーボード入力により, ニュースの字幕原稿が作成されているが, 日本語の場合には, 仮名漢字変換などに時間がかかるため, アナウンサーの声に追従して字幕原稿を入力することは難しい.そこで, 音声認識を利用した, 放送ニュース番組用の字幕制作システムを開発した.このシステムは, アナウンサーの音声をリアルタイムで認識し, 認識結果中の認識誤りを即座に人手で修正して, 字幕原稿を作成するシステムである.NHKでは, 本システムを利用して, 平成12年3月27日から, ニュース番組「ニュース7」の字幕放送を開始した.
著者
松井 淳 本間 真一 小早川 健 尾上 和穂 佐藤 庄衛 今井 亨 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.87, no.2, pp.427-435, 2004-02-01
参考文献数
11
被引用文献数
22

スポーツ中継番組の字幕放送を,音声認識によって拡充するため,放送音声を積極的に言い換えるリスピーク方式を提案する.ソルトレークシティオリンピック中継のスキージャンプ団体の放送音声と,本方式により言い換えを行った字幕用音声をそれぞれ音声認識した結果,単語正解精度が45.6%から96.8%に改善した.また,リスピークにおいて積極的に言い換える効果を調べるため,実際の字幕放送と同様の条件下で採取した発話内容について言い換えのパターンを五つに分類し,それぞれのパープレキシティ削減率を比較した結果,語の補完による言い換えが7.3%と最も効果が高かった.字幕放送の実質的な性能を左右する文正解率については,言い換えがおうむ返しによるリスピークに比べて,スピードスケートで8.8%,スキージャンプで6.6%向上した.NHKでは,本方式を利用することにより,口語的な発話スタイルを多く含んだソルトレークシティオリンピック中継(2002年3月),及び,第52目NHK紅白歌合戦(2001年12月)の字幕放送を実現させた.
著者
大出 訓史 安藤 彰男 谷口 高士
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.109, no.100, pp.55-60, 2009-06-18

視聴者満足度といった観点から音や音楽を評価する場合,その音が大きいか小さいかといった物理的な特徴量と,その結果としてどう思ったのかという聴取者の心理状態を評価する必要がある.本稿では,音の物理的な特徴量と聴取者の受け止め方という2つの観点から音や音楽を評価することを目的に,アンケート調査を実施し,「迫力のある」などの印象語に対するそれぞれの反意表現(「繊細な」や「騒々しい」)を抽出した.次に,これらの印象語を用いて評価実験を行った.対となる反意表現を変えると評価値も変わるが,どの印象が変わるかは音源に依存した.また,要因を分離するために,各印象を2次元で表記する検討も行った.従来から用いられる評価語対(「迫力のある-ものたりない」など)は,どちらの観点でも反対の意味の言葉が使われていることが多く,その評価値には,音の物理的な特徴量だけでなく,聴取者の受け止め方も含まれている可能性が高いことが分かった.
著者
安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.102, no.417, pp.37-38, 2002-10-23
被引用文献数
2 1

本稿では、音声認識を利用した2つのリアルタイム字幕制作システムを紹介する。1つは、ニュース番組を対象とした字幕制作システムである。このシステムでは、番組中のアナウンサーの声をリアルタイムで認識し、認識結果中の認識誤りを即座に人手で修正して、字幕原稿を制作する。もう1つは、バラエティ番組やスポーツ中継を対象とした字幕制作システムである。こちらでは、番組中の音声を直接認識するのではなく、リスピークと呼ばれる方式をベースとしている。NHKでは、ニュース用字幕制作システムを利用して、2000年3月27日から、毎日ニュース番組の字幕放送を実施している。また、リスピークに基づくシステムを用いて、2001年12月31日の紅白歌合戦、2002年2月のソルトレークシティオリンピックなどの字幕放送を実施した。
著者
安藤 彰男
出版者
一般社団法人 電子情報通信学会
雑誌
電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review (ISSN:18820875)
巻号頁・発行日
vol.3, no.4, pp.4_33-4_46, 2010-04-01 (Released:2010-11-01)
参考文献数
25
被引用文献数
2

臨場感の高い音響を実現するため,様々な音場再生技術が研究開発されている.これらは,心理音響モデルに基づく方式と,物理音響モデルに基づく方式に大別できる.前者としては,5.1サラウンドから22.2マルチチャネル音響に至る様々な方式が提案されている.いずれも,2チャネルステレオの音像制御方式を基本としており,チャネル数を増やすことで,音場再生能力を向上させている.一方,後者は,音の物理量再現を目的とした方式であり,Wave Field Synthesisや境界音場制御法など,音の場の再現を目指す方式と,アンビソニックスに代表される,受音点での音の物理量を再現する方式に分けることができる.本稿では,これらの方式の基本技術を概観するとともに,その背景となる理論を紹介する.
著者
大出 訓史 今井 篤 安藤 彰男 谷口 高士
出版者
一般社団法人 言語処理学会
雑誌
自然言語処理 (ISSN:13407619)
巻号頁・発行日
vol.14, no.3, pp.81-97, 2007
被引用文献数
1

日常生活の様々な体験において, その体験の素晴らしさを表現する言葉として, 『感動』という言葉がしばしば用いられる.感動とは, 『美しいものや素晴らしいことに接して強い印象を受け, 心を奪われること』 (大辞林 (松村1995)) であり, 体験に対する肯定的な評価であると共に, 記憶の定着や感情の喚起を伴った心理状態の大きな変化である.感動を喚起する対象としては, マスメディアが提供するドラマや映画, 音楽などの割合が高いとされている (三菱総合研究所2003).しかし, 感動という心理状態の定義については, 研究者の中でも曖昧である.<BR>我々の目的は, 放送番組の品質評価, 特に音の評価に, 『感動』をキーワードとした評価指標を導入するために, 感動という心理状態を明確にすることにある.まず, アンケート調査を実施し, 感動という言葉で表現される体験と, 感動を表現する言葉 (以下, 感動語) を収集した.次に, 感動語同士の一対比較による主観評価実験を行い, 感動語から連想される心理状態の類似度を求めた.他の感動語との類似度によって表現される類似度ベクトルの距離に基づいて, 感動語の分類を行った.その結果, 感情とは, 特定の感情そのものではなく, 大きく心が動かされたという体験に対して, 肯定的な印象を持っているという個々の心理状態の総称であり, 感動という心理状態が, 感動の対象と感情の種類, 感情の動きの組み合わせによって分類できることが分かった.
著者
大出訓史 今井 篤 安藤 彰男 谷口 高士
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.3, pp.1111-1121, 2009-03-15
被引用文献数
1

音楽や音響システムの評価に人の嗜好や感性を加えることを目的として,心に何らかの良さを強く感じたときに用いられる"感動"という観点から音を評価することを検討している.著者らは,これまでに心理実験によって感動を表現する言葉(以下,感動語)を分類し,"感動"に含まれる心理状態が一意ではないことを示した.本稿では,分類した感動語を感動評価尺度として,音楽聴取における"感動"を評価させた.その結果,楽曲によって感動評価尺度の評価の傾向は異なり,音楽によって喚起される感動にも種類があることが分かった.また,同じ楽曲を評価した場合に,「感動」を高く評価した実験参加者と低く評価した実験参加者では,音楽の持つ感情価測定尺度の評価値よりも感動評価尺度の評価値にグループ間で大きな差異がみられた.「感動」の評価値は,感動評価尺度の評価値の重み付き線形和で近似できた.Our main purpose was to evaluate acoustical reproduction system or musical broadcast programs from the viewpoint of not only impressions of them but also Kandoh, "emotional affect". Some impressionably pleasant or deeply moving experiences are expressed in Japanese by the term "Kandoh", which is generally accompanied by strong emotion. Words describing the experience of Kandoh were collected and classified. The various types of feelings were included in Kandoh categories. The Kandoh Evaluation Scale was made from these Kandoh categories. In this paper, participants listened to music, and then described their feelings using the Kandoh Evaluation Scale. The results showed different types of Kandoh were evoked by music. The Kandoh Evaluation Scale could explain more adequately than the conventional Affective Value Scale of Music the differences between participants who felt Kandoh or not. The evaluated value of Kandoh was approximately estimated by both the types of Kandoh category and the values of the Kandoh Evaluation Scale.
著者
大出 訓史 安藤 彰男 谷口 高士
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 A (ISSN:09135707)
巻号頁・発行日
vol.J97-A, no.4, pp.323-331, 2014-04-01

近年,様々な音響再生方式が提案されており,評価手法の確立が求められている.著者らは,体験品質という観点から,体験の肯定的な評価に使われる“感動”という言葉に着目し,感動評価尺度を提案した.これまでに著者らが実施した音楽聴取実験の結果,感動の評価値が高い評価者群と低い評価者群の印象の差が,感動評価尺度では大きく,音楽の感情価では小さいことがわかった.これは,感動の要因となる印象が,音楽の感情価とは異なることを示唆する.そこで,本研究では,音楽聴取時の感動の要因を探るため,感動の度合いに応じて差が生じる音楽や音響の印象を調べた.まず,感動評価尺度の一般化を目的に,118名による評価実験に基づいて感動評価尺度の再構成を行い,次に,音楽や音色,音響機器の評価に用いられる評価語80語を用いた音楽聴取実験を行った.その結果,感動の度合いによる評価者間の印象の差は,「音色がよい」や「艶がある」などの音響の印象で大きいことがわかった.感動の種類によって相関の高い音楽や音響の印象が異なることから,音楽の印象と音響の印象の組み合わせによって感動が促進される可能性が示された.
著者
安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. WIT, 福祉情報工学
巻号頁・発行日
vol.102, no.419, pp.37-38, 2002-10-23

本稿では、音声認識を利用した2つのリアルタイム字幕制作システムを紹介する。1つは、ニュース番組を対象とした字幕制作システムである。このシステムでは、番組中のアナウンサーの声をリアルタイムで認識し、認識結果中の認識誤りを即座に人手で修正して、字幕原稿を制作する。もう1つは、バラエティ番組やスポーツ中継を対象とした字幕制作システムである。こちらでは、番組中の音声を直接認識するのではなく、リスピークと呼ばれる方式をベースとしている。NHKでは、ニュース用字幕制作システムを利用して、2000年3月27日から、毎日ニュース番組の字幕放送を実施している。また、リスピークに基づくシステムを用いて、2001年12月31日の紅白歌合戦、2002年2月のソルトレークシティオリンピックなどの字幕放送を実施した。
著者
大出 訓史 安藤 彰男 谷口 高士
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.110, no.71, pp.1-6, 2010-06-03

近年,臨場感という観点から映像・音響メディアの研究が行われている.臨場感という言葉は,再生品質の評価において「リアリティ」の同義語として用いられるが,現実場面では心を揺さぶる体験にも用いられ,その定義は定まっていない.臨場感の要因を探ることを目的に著者らが行ったアンケート調査の結果では,臨場感の定義として「目の前に」といった近さを挙げる例が多かった.本報告では,臨場感と近さの関係を調べるため,音源との距離を変えて音楽聴取実験を行った.その結果,生演奏という現実場面でも,演奏者に近づいて聴取することで臨場感が高まることが分かった.また,収音位置の異なる再生音を聴取した場合,臨場感は主観的な近さと相関は高かった.「迫力のある」,「はっきりした」,「動きの大きい」といった印象が高い場合に,再生音に対する臨場感の評価が生演奏を上回ることがあった.これらの結果より,忠実に再現されているかというよりも特定の印象が強調されているとき,臨場感が高く評価される可能性が示された.
著者
江原 暉将 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会誌 (ISSN:09135693)
巻号頁・発行日
vol.84, no.5, pp.316-319, 2001-05-01
参考文献数
4

聴覚障害者向け字幕放送の拡充を目指した研究開発の状況を紹介する.通信・放送機構では,オフラインでの字幕制作を対象に,字幕原稿の自動要約技術,音声と字幕との自動同期技術,字幕表示を適切に行う自動字幕画面制作技術,これらを統合化するシステム技術について研究している.NHKでは,ニュース番組に対する字幕放送を実現するため,音声認識技術を利用した字幕制作システムを開発し,平成12年3月27日から,このシステムを利用して,「ニュース7」の字幕放送を開始した.本稿では,これらの研究内容について解説する.
著者
本間真一 小林 彰夫 佐藤庄衛 今井 亨 安藤 彰男 宇津呂 武仁 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.55, pp.29-34, 2001-06-01
参考文献数
12
被引用文献数
1

我々は、ニュース解説を対象にした音声認識の研究を行っている。これまでの研究では、解説音声は原稿読み上げ音声と異なる音響的特徴および言語的特徴をもつことや、学習データ量も不足していることから、まだ十分な認識精度は得られていない。そこで本稿では、比較的多くのデータ量が得られる講演スタイルの解説番組「あすを読む」を対象にした音声認識について検討を行う。ニュース原稿と「あすを読む」の書き起こしの混合による言語モデルの適応化、言語モデルの学習テキストと発音辞書におけるフィラーの扱いの見直し、音響モデルの話者適応などを行った結果、単語正解精度が67.4%から84.9 %まで改善した。We are studying speech recognition for news commentary. So far we haven't achieved satisfied accuracy for it, because speech of news commentary has different linguistic and acoustic features from read speech and supplies insufficient training data. Therefore, this paper treats speech recognition of a broadcast commentary program called "Asu wo Yomu (Reading Tomorrow)", which has rather more training data. We adapted language models by mixing the news manuscripts and transcriptions of "Asu wo Yomu" in their training texts, changed how to treat pause fillers in the training texts and word lexicon, and carried out speaker adaptation of acoustic models and so on. As a result, we improved the word accuracy from 67.4% to 84.9%.
著者
安藤 彰男
出版者
一般社団法人 電子情報通信学会
雑誌
電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review
巻号頁・発行日
vol.3, no.4, pp.33-46, 2009
被引用文献数
1 2

臨場感の高い音響を実現するため,様々な音場再生技術が研究開発されている.これらは,心理音響モデルに基づく方式と,物理音響モデルに基づく方式に大別できる.前者としては,5.1サラウンドから22.2マルチチャネル音響に至る様々な方式が提案されている.いずれも,2チャネルステレオの音像制御方式を基本としており,チャネル数を増やすことで,音場再生能力を向上させている.一方,後者は,音の物理量再現を目的とした方式であり,Wave Field Synthesisや境界音場制御法など,音の場の再現を目指す方式と,アンビソニックスに代表される,受音点での音の物理量を再現する方式に分けることができる.本稿では,これらの方式の基本技術を概観するとともに,その背景となる理論を紹介する.
著者
安藤彰男 今井 亨
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告オーディオビジュアル複合情報処理(AVM) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.90, pp.25-30, 1995-09-14
参考文献数
8
被引用文献数
3

将来のマルチメディア時代において、対話的に視聴する放送サービスを実現するため、音声対話システムの研究を進めている。その第一段階として、音声によって放送番組の検索・リクエストを行う実験システムを構築した。本システムでは、自由発声された音声中から、番組ジャンルや番組名などのキーワードを抽出するワードスポッティング型の音声認識方式を採用している。本システムのために新たに開発したワードスポッティング法を用いて、女性話者4名が発声した音声を認識する不特定話者認識実験を行ったところ、従来法による認識率が47%であったのに対し、86%の認識率を得た。A TV program retrieval system based on speech recognition has been developed as a part of a spoken dialogue system which will be useful as one of multimedia broadcasting services. The system spots a keyword such a category or a title of a program in spontaneous speech based on a new word spotting method and show the corresponding program on the TV display. Experiments showed that the average recognition accuracy of speaker in dependent recognition for 4 female speakers is improved from 47% to 86% by using the new word spotting method.
著者
大出訓史 今井 篤 安藤 彰男 谷口 高士
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.3, pp.1111-1121, 2009-03-15

音楽や音響システムの評価に人の嗜好や感性を加えることを目的として,心に何らかの良さを強く感じたときに用いられる"感動"という観点から音を評価することを検討している.著者らは,これまでに心理実験によって感動を表現する言葉(以下,感動語)を分類し,"感動"に含まれる心理状態が一意ではないことを示した.本稿では,分類した感動語を感動評価尺度として,音楽聴取における"感動"を評価させた.その結果,楽曲によって感動評価尺度の評価の傾向は異なり,音楽によって喚起される感動にも種類があることが分かった.また,同じ楽曲を評価した場合に,「感動」を高く評価した実験参加者と低く評価した実験参加者では,音楽の持つ感情価測定尺度の評価値よりも感動評価尺度の評価値にグループ間で大きな差異がみられた.「感動」の評価値は,感動評価尺度の評価値の重み付き線形和で近似できた.
著者
松井 淳 加藤 直人 小林 彰夫 今井 亨 田中 英輝 安藤 彰男
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1999, no.108, pp.211-216, 1999-12-20
参考文献数
7

ニュースのリアルタイム字幕作成を目的とした音声認識には一般のタスクと違う特徴がある.すなわち発声される可能性のあるテキスト,あるいはそれに類似したテキストを放送の前に入手できる特徴である.著者らはこの点に着目して認識性能を向上させる手法をいくつか研究してきた.これらは計算処理量の比較的重いものと軽いものがあり,軽い処理ほど放送直近の原稿を利用できる.本稿では,比較的処理の重い「言語モデルの適応化手法」,処理の軽い「放送直前の原稿を利用したn-gram確率の動的計算法」,および「未知語自動登録法」を使った実験を報告し,これらを組み合わせて利用することで単語正解精度が89.92%から92.36%に改善されたことを示す.Although it is almost impossible to guess what will be uttered beforehand in general speech recognition task, we can do this with high possibility in news dictation task thanks to the manuscripts that well hold the words to be uttered by announcers. In this paper, we describe three ways of utilizing such news manuscripts and will show empirically that they greatly helped improving the news recognition rate.
著者
安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.523, pp.43-48, 2000-12-15
被引用文献数
7

平成12年3月27日から、NHKニュース番組「ニュース7」で字幕放送が開始された。この字幕放送は、音声認識技術を利用して、リアルタイム字幕を試みた世界でも初めての例である。テレビニュース番組に対する字幕放送を実現するためには、リアルタイムで字幕原稿を制作する必要がある。日本語の場合には、仮名漢字変換などに時間がかかるため、アナウンサーの声に追従して字幕原稿をキーボード入力することは困難であり、いままで、我が国ではニュースの字幕放送は実現されていなかった。そこで、音声認識技術を利用することとした。本稿では、「ニュース7」字幕放送を実現するために開発したニュース音声認識システム、及び音声認識結果を人手で即座に修正するシステムについて解説する。
著者
本間 真一 松井 淳 佐藤 庄衛 小早川 健 尾上 和穂 今井 亨 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.160, pp.49-54, 2002-06-21
被引用文献数
11

NHKは,音声認識技術を利用したニュース番組の生字幕放送をすでに実現しているが,スポーツなどの生放送番組については,背景雑音や発話スタイル等の問題があるため,直接その番組音声に対してリアルタイムで音声認識を行うことは困難である.そこで我々は,「リスピーカー(re-speaker)」と呼ばれる話者を起用し,この話者が番組音声を聞きながらその内容を言い直し,その声を音声認識することにより生放送番組の字幕放送を実現した.本稿では,ソルトレークシティーオリンピックの生中継において実際に使用された生字幕放送ための音声認識システムと,新たに構築した言語モデルおよび音響モデルの概要を説明する.また,音声認識率やテストセットパープレキシティーなどをもとに,リスピーカーによる言い直しの効果について報告する.
著者
佐藤 庄衛 世木 寛之 尾上 和穂 今井 亨 田中 秀樹 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.136, pp.9-15, 2000-06-15
被引用文献数
4

ニュース番組に対する自動字幕放送の字幕付与率向上を目的とした適応音響モデル作成法を提案する.提案手法では, 大規模学習音声データベースから適応データを選択する方法として, GMMを用いた2段階クラスタリングを行い, クラスタごとに適応音響モデルを作成する.本手法を用いて, 4つのニュース番組1日分の認識実験を行った結果, クラスタ数を12としたときに最大の効果が得られ, 本手法を用いないベースラインに比べ, 33%のWER削減率, 25%のデコード所要時間削減率が得られた.また, 音響モデルの決定に使用する入力音声を文頭の0.4秒に制限してもモデル選択精度が変わらなかった.この場合, 認識に使用する音響モデルの決定に必要となる時間を考慮した全体の所要時間でも18%の削減率が得られた.