著者
伊田 政樹 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.92, pp.1-8, 1996-06-13
参考文献数
15
被引用文献数
4

音声認識システムの実用化には高精度認識と実時間処理という2つの課題がある。近年、より大規模な連続音声認識システムが求められており、全ての候補との照合を行なうことなく高精度かつ効率的な探索処理が必要となってきている。ここでは、ビームサーチ法とA^*探索法による認識性能の評価について述べる。認識実験より、ビームサーチ法は最適性が保証されていないが、適当なビーム幅と枝刈りのしきい値を与えることで、最適解を失う可能性は非常に小さくなり、枝刈りによって探索空間を大幅に削減できるために高速処理が可能となる。さらにここでは、ビーム幅の範囲内に最適バスが存在していることから、A^*探索法の探索空間をビーム幅で制限する方法について提案する。
著者
中山 一郎 岡田 稔枝 中川 みかほ
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.610, pp.5-8, 1999-02-18
被引用文献数
1

これまで筆者らは、発声時に発声者自身が聴取する音声(自己聴取音)の音色を、自己聴取音に相当する音声を発声者がイコライザとアッテネータを操作して、自己聴取音と出来るだけ似かよった音声(シミュレート音)を作成する方法(遅延音帰還法)を用いて、周波数軸上で定量化してきた。しかしながら、自己聴取音は発声者本人しか聴取できないが故に、シミュレート音との類似性を客観的には評価できなかった。そこで本研究では、男性の話し声の母音/a/を対象に、1)自己聴取音とシミュレート音、及び、2)シミュレート音とその音色を実験者が意図的に変化させて作成した音声(加工音)、との2種類の類似度評価実験を行うことによって、自己聴取音とシミュレート音の類似性が原理的には客観的に評価できること、及びその類似性が十分に高いことを明らかにした。
著者
ポンキッティパン ティーラポン 齋藤 大輔 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.112, no.81, pp.7-12, 2012-06-07

本稿ではeigenvoiceに基づくキャラクター変換の一手法を提案する。273名の話者から構築したeigenvoice話者空間と,セミプロの声優から収録した三種類のキャラクタ声を用いて,キャラクター変換を実装する。ここでは任意の入力話者に対して,その話者の個人性を保存しつつ,声のキャラクターのみを変換する。母語話者及び非母語話者を対象に,キャラクター変換前後の合成音声を用いた聴取実験を行なった。その結果,意図されたキャラクター差異が十分に知覚されることが示された。更に,セミプロの声優による二キャラクターにおいて基本周波数差異が小さい場合でも,対応する合成音声から,十分にキャラクター差異を知覚できることが示された。これは,キャラクター変換の場合,スペクトルに基づく変換が不可欠であることを意味している。また,セミプロによる三キャラクタ声と提案手法による三キャラクタ声との音響分析により,本提案手法が適切な変換を実装できていることも確認できた。
著者
安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.102, no.417, pp.37-38, 2002-10-23
被引用文献数
2 1

本稿では、音声認識を利用した2つのリアルタイム字幕制作システムを紹介する。1つは、ニュース番組を対象とした字幕制作システムである。このシステムでは、番組中のアナウンサーの声をリアルタイムで認識し、認識結果中の認識誤りを即座に人手で修正して、字幕原稿を制作する。もう1つは、バラエティ番組やスポーツ中継を対象とした字幕制作システムである。こちらでは、番組中の音声を直接認識するのではなく、リスピークと呼ばれる方式をベースとしている。NHKでは、ニュース用字幕制作システムを利用して、2000年3月27日から、毎日ニュース番組の字幕放送を実施している。また、リスピークに基づくシステムを用いて、2001年12月31日の紅白歌合戦、2002年2月のソルトレークシティオリンピックなどの字幕放送を実施した。
著者
白木 善尚
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.97, pp.63-68, 2000-05-19
被引用文献数
2

単位円内|z|<1の複素数値解析関数(正則関数)は線型時不変系の伝達関数H(z)として良く使われる。例えば、音声波の線型予測分析(LPC)は一変数の有理関数を用いる。この際、鼻音を除く音声の多くの特徴は有理関数の極に現れる。合成の際には、極の情報を与えて有理関数を作り、声道のフィルターとして用いる。「音声の特徴と極とのうまい対応」が正当化される一変数複素解析の側面からの根拠は、正則関数の極が孤立点であること、による。これらのことから、2人の話者の音声を分析する場合、二変数の有理関数を用いることが考えられる。しかし、多変数の場合、極は孤立点とは限らない。解析接続の状況が一変数の場合とは異なるためである。したがって、極の情報を与えて正則関数を作れるか、どのような条件のときにそれが可能なのか、それ自体が難しい問題となる。この問題はクザン(Cousin)の問題と呼ばれ、Hartogsの逆問題などともに、岡潔が解決した。岡による一連の解決の核心は『上空移行の原理』にある:考えている空間の次元を適当に上げることによって問題の困難さがときとして緩和される。本稿では、『上空移行の原理』に習った音声特徴の多重構造の調べ方について報告する。音声特徴の多重性は、種々の「複雑な領域」に現れる。「複雑な領域」における音声の多重性の問題を『上空移行の原理』を用いて、「簡明な凸性」の組み合わせ問題へと帰着させる。L^2空間との関連も述べる。
著者
岩見 洋平 戸田 智基 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.619, pp.11-16, 2003-01-24

音声における感情表現は韻律におおきく影響されるといわれており,これまで,韻律を制御するためのさまざまな分析と,その分析から得られる規則を用いた合成手法が報告されている.しかし,それらの報告において,韻律は感情表現において重要な要素であるが,韻律だけでなく声質も重要な要素であると指摘されている.そこで本報告では,感情音声の声質を制御する手法として, GMM (Gaussian Mixture Model)に基づく声質変換を用いた感情音声合成手法を提案する.この手法では読み上げ調に発話された音声の声質を,感情音声のそれに変換する.本研究でははじめに,怒り,悲しみ,喜び,読み上げ調(平静)の音声データを収録した.そして,その音声を用いて感情音声への声質変換を行い,客観評価実験及び主観評価実験を行った.その結果,声質変換のみでは感情表現は不十分であるが,適切な韻律が与えられた場合,声質変換を行うことにより,感情の表現力が向上することが分かった.本報告では,感情音声データベースの作成と,その音声から作成した感情間の声質変換音声の評価について報告する.
著者
ニック キャンベル
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.423, pp.47-54, 1998-11-19

CHATRは音声コーパスを用いて音声合成を生成する手法である。本手法は信号処理を施すことなく、音声波形に音響的・韻律的影響を付与する「ゲシュタルト」ラベリングによって適切な音声セグメントを選択する。CHATRは音声コーパスに情報を付与することにより、モデル依存ではなく、自然発話データから直接情報を得る。また、この手法により基本アルゴリズムを変えずに、異なる話者や異なる言語に適用する汎用的な音声合成が実現可能となった。本報告では音声コーパスを7段階の処理(音声収録、ラベリングや分析、圧縮や情報符号化、自動学習、韻律予測、単位選択、波形接続)によって連続発話音声データから合成音声を生成する方式を紹介する。
著者
加藤 充美 西村 明 安藤 由典
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.635, pp.43-50, 2001-02-15
参考文献数
6
被引用文献数
5

筆者らはフルート演奏音の倍音の微細な変動のフルート音の品質への影響を研究している。フルート音には、倍音の振幅や周波数の変動とともに息音に起因するノイズ成分が含まれている。このノイズ成分は倍音の変動にも影響を及ぼし、フルート音の品質へも影響している。それらの影響を研究するためには、倍音の振幅や周波数の変動とノイズ成分をまとめて分析し、変動の深さなどのパラメータを変化させて合成し試聴する手法が必要となる。このため、筆者らは解析信号を用いた分析・合成手法を採用し研究を進めている。本報告ではこの手法がフルート音のような倍音の変動のみならずノイズ成分をもつ楽音に対する分析・合成に適している手法であることを示し、その性質を明らかにする。
著者
安藤 正遵 千崎 一義 上野 香代子 大川 茂樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.109, no.308, pp.19-24, 2009-11-19

本稿では,歯科における咬み合わせ治療により発声が改善されることを,実際の治療事例および治療前後の音声分析の結果により示す。一般にはあまり知られていないが,咬み合わせ治療を施すことにより,肩こりなどの不定愁訴などが改善されることや,発声が明瞭になる(たとえば滑舌がよくなる)ことが歯学界では知られている。本研究では,まず,模擬患者1名の通常の咬み合わせ時および異物を下顎臼歯に配置したときの舌運動をfMRI画像として記録した。次に,実際に発声改善を望んだ複数名の患者に対して治療を施し,術前・術後の音声を録音した。患者2名の治療事例の詳細を紹介すると共に,音声の変化に関する時間的・周波数的分析の結果を示す。
著者
馬場 良二
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.104, no.148, pp.11-16, 2004-06-18

熊本方言は語のアクセントの型に意味を弁別する機能がなく,無アクセント方言だといわれている.しかし,音声言語であれば発話の切れ目を示す機能はあるはずで,引用を示す助詞「-て」を含む節において,韻律がどのように現れるかを調査した.イントネーション単位がテ節と一致しているとき,基本的には「て」の直前で音調の下降が見られること,テ節がより大きなイントネーション単位の一部となるとき,その下降は見られなくなること,プロミネンスがおかれた場合,おかれた要素の音調にピークが現われ,他の要素の音調は低くおさえられることなどがわかった.
著者
渡邉 実 堀内 靖雄 市川 熹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.338, pp.17-22, 1997-10-23
参考文献数
6
被引用文献数
3

数式の構造は欧米語に近く、日本語とは非常に異なるため、その日本語の音声表現は決まったものがない。視覚障碍者がインターネット等を通して電子化された情報を得る場合を想定し、HTMLやLATEXで記述されている表形式や数式を音声で表現するための基礎検討を進めている。
著者
横井 謙太朗 河原 達也 堂下 修司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.449, pp.71-78, 1997-01-17
被引用文献数
9

ニュース音声データベースから特定の話題に関連したニュース音声を検索するシステムを実現するため、ニュース音声に話題情報を付与することを考える。新聞記事のテキストデータベースから話題を規定するキーワードを抽出し、それらの話題依存性の統計量を求める。認識器により抽出されたキーワードをもとにこの話題依存性の晴報を総合していくことで、文全体の話題を同定する。今回は、単一単語の話題依存性だけでなく単語共起のもつ話題依存性も利用する機構を提案する。これによってより誤りに強い話題同定が行なえることを、シミュレーションにより実験・評価する。
著者
辻 康博 星 守 大森 匡
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.565, pp.17-24, 1997-03-06
参考文献数
9
被引用文献数
38 13

データベースからの楽曲の検索法で、キーワードによる検索以外の方法として、感性語による検索法を提案する。楽曲の旋律に含まれる音高、音長の局所パターンを特徴量として用い、この特徴量の曲の分類という点における有効性を、主成分分析などの統計分析により検討した。分析の結果、この特徴量は曲の分類に有効であることがわかった。これを踏まえて、局所パターン特徴量と感性語データとで正準相関分析を行ない、検索空間を作成し、この空間を使用して音楽データべース検索システムを作成した。550曲のデータベースに対して評価実験を行なった結果、この特徴量を用いた感性語による検索法は有効であることが確かめられた。
著者
平館 郁雄 赤木 正人
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.744, pp.43-50, 2002-03-21
参考文献数
10
被引用文献数
2

本研究では、怒りの感情音声における音響特徴量(基本周波数・パワー・持続時間・フォルマント周波数・スペクトル)と聴覚印象との関係を調べることを目的とする。本稿では、扱う感情を「Cold Anger(押し殺した怒り)」「Hot Anger(激しい怒り)」とし、「Neutral(平静)」音声との音響特徴量の比較を基に、音響特徴量の変動が大きいと考えられるアクセント部の分析を行った。その結果、感情間でいくつか相違が見られた。((1)基本周波数・パワーに関しては、「Hot Anger」のアクセントレベル上昇時の変化率が最も大きい。(2)「Cold Anger」のアクセント部の母音の持続時間が最も短い。(3)フォルマント周波数に関しては「Hot Anger」は「Neutral」より高い。(4)スペクトルに関しては「Hot Anger」における高帯域で強調されている。)そして、分析結果から感情音声の合成音を作成するための規則を導出した。
著者
河原 英紀 片寄 晴弘
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.560, pp.43-44, 1998-02-19

本デモンストレーションでは、筆者らが提案した音声分析・変換・合成方法STRAIGHT(Speech/sound Transformation and Representation using Adaptive Interpolation of weiGHTed spectrogram)を楽器音の変換に用いた場合の例を示す。尺八は、非常に生々しく再現されており、本方式が音楽の分野への応用においても高い潜在能力を持つことが示唆された。しかし、ピアノ音などでは音源情報のモデル化と抽出方法に更に工夫が必要であることが明らかとなった。
著者
二藤 宏美 林 安紀子 南 曜子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.240, pp.47-52, 2000-07-21
参考文献数
3

乳児が日常において養育者から聴いている音楽への選好をどのように形成していくか、童謡を用いて検討した。選好振り向き法を用い、5〜14ヵ月児に対し、長調の童謡6曲とそれらの短調への変型6曲の旋律を聴かせ、聴取反応を測定した。その結果、5、8、11ヵ月児群においては月齢内で一貫した聴取反応は認められなかったのに対し、14ヵ月齢群において、原型への有意な選好が認められた。また、8、11ヵ月児群において、聴取経験と選好との相関が認められた。以上より、乳児は0歳後期から徐々に音楽の聴取経験の影響を受け、1歳前期にはこれらの原型への選好が形成される可能性が示唆された。
著者
山岡 沙織 力丸 裕
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.471, pp.55-59, 2012-03-01
参考文献数
5

先行研究によってSpatial-Musical Association of Response Codes (SMARC)効果が報告されている。これは、ピッチ比較課題において高音と右、低音と左の結びつきの場合は、その逆で高音と左、低音と右の結びつきの場合よりもより反応時間が短く、またより正確であるという現象である。しかし、この現象が先天的現象なのか後天的現象なのか、またそのしくみについても明らかになっていない。そこで、まず行動実験によりSMARC効果を実証し、SMARC効果が音楽経験に依存するのかを調べた。被験者は学生25人(音楽経験者16人、音楽非経験者9人)である。被験者は2種類のトーンバースト(参照音:523Hz,プローブ音:330, 370, 415, 466, 587, 659, 739, 831Hz)のピッチ比較をし、プローブ音の方が高い場合は右もしくは上を低い場合は左もしくは下のボタンを押す課題と、またその逆で高い場合に左もしくは下を低い場合に対して右もしくは上のボタンを押す課題が与えられた。プローブ音を聞いてからボタンを押すまでの反応時間を測定した結果、SMARC効果の強さには個人差が見られたが現象は確認された。しかし、音楽経験とSMARC効果の間には強い相関は得られず、SMARC効果が音楽経験に依存するとは言えないことが分かった。さらに、高さの異なる2種類のトーンバースト聴取時の脳活動をfMRIで撮像した結果、被験者14人に共通して活動が見られた前帯状皮質と行動実験において計測したSMARC効果の強さに負の相関が見られた。
著者
菅野 沙也 伊藤 貴之 高村 大也
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.114, no.52, pp.71-74, 2014-05-17

本研究では文書の印象や感情に基づいて楽曲生成を行う.前処理としてコードとリズム進行のデータを作成しておき,さらにユーザーごとの感性データを取得しておく.これは一人ひとりによって異なる音楽的感性を考慮し,ユーザーそれぞれに対応した楽曲を提供するためである.文書を入力するとまず形態素解析と感情極性を用いた文書解析をすることで印象値を取得し,次にこの印象値から場面ごとのコードとリズムの進行を決定する.これらを合成することで生成された楽曲がユーザーごとに提供されることとなる.入力文書の印象や感情を楽曲を用いて表現することでさらなる印象理解を促すことを目的とした.
著者
堀 貴明
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.153, pp.35-40, 2011-07-14

本稿では,音声認識アルゴリズムの最近の進展について概説する.音声認識に関連するアルゴリズムは数多く存在するが,本稿では入力音声に対して最も尤もらし単語列を探索するデコーダ技術に着目する.近年の大語彙連続音声認識のデコーダは時間同期Viterbiビーム探索がベースとなっており,多くの場合,音響モデルには隠れマルコフモデル,言語モデルには単語Nグラムが用いられる.そして,このデコーダを動作させる現在最も有力なアプローチは重み付き有限状態トランスデューサ(Weighted Finite-State Transducer: WFST)による音声認識である.本稿ではWFSTを中心に近年のデコーダ技術を紹介すると共に,コンセンサスデコーディング,並列化,探索最適化,テンプレートベース音声認識といったWFST以外の話題にも触れ,今後のデコーダ技術の展望について述べる.
著者
西本 博則 島田 育廣 藤本 一郎 正木 信夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.109, no.99, pp.17-22, 2009-06-17
被引用文献数
2

声帯振動や歯茎ふるえ音等の高速で振動する調音器官の観測のための超高時間分解能MRI movieの撮像法を提案する.本手法では光マイクロホンを用いてMRI撮像中の被験者の音声を,さらに空芯ソレノイドコイルを用いてMRIスキャナーの傾斜磁場の磁場変動を両方同時収録することで両者の正確な時間的関係を求め,動画の各フレームを作成している.さらにMRIスキャナーの高性能化によりデータ収録時間の短縮が可能になり,MRI movieの高時間分解能化を実現した.本稿では,振動子からなるファントムによる実証実験を行い,最大6384 fpsのフレームレートの画像が得られた.さらに歯茎ふるえ音発話時の舌の振動の撮像を行い,舌の振動の様子が確認された.