著者
成田 知宏 岩崎 知弘
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.110, no.401, pp.31-36, 2011-01-20

本稿では2チャネルの小規模マイクロホンアレーを用いた音声認識のための雑音除去手法について述べる。車載機器への適用を考えた場合、発話者である運転手の位置は予め想定可能である。また車室内で発生する騒音の多くは拡散性雑音である。そこで低演算量で安定して動作することを重視し、予め話者位置の変動を考慮し設計した固定ビームフォーマを採用した。またスペクトルサブトラクション法の後処理として、非フロアリング成分の密集度に基づくミュージカルノイズ削減処理、主副ビームフォーマの帯域制限パワー差に基づくスペクトル置き換え処理を適用することで音声認識性能の改善を行った。
著者
小川 啓太 Hamid M. E. 深林 太計志
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.572, pp.25-30, 2006-01-20

本稿において, 雑音を含む音声のピッチ抽出法を提案する. これは, シングルマイクロホンを用いる方法である. 初めにただ一つの観測信号, すなわち雑音を含む音声から1次雑音を推定し, その1次雑音と観測信号を用いて, スペクトル領域でのブラインド信号分離(BSS)により2次雑音を推定する. 次に, 雑音と音声は無相関であると仮定して, 2次雑音の自己相関関数(ACF)の振幅を調整して, 観測信号のACFから引くことにより, 雑音の低減された目的のACFを求める. 2次雑音のACFの減算時の振幅調整には推定した雑音の程度を用いる. この雑音の程度はあらかじめ用意し観測信号のACFから求まるパラメータの関数から得ている. そして, スペクトルの調波から求めたピッチ候補周波数を用いて雑音の低減されたACFにコサイン変調を施し, 低域を強調する. このようにして得られたACFを用いたピッチ抽出法とその評価実験結果について述べる.
著者
吉岡 典子 長幡 大介 柳田 益造 中山 一郎
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.595, pp.1-8, 2001-01-19
参考文献数
7
被引用文献数
2

本報告は, 能と狂言の声を洋楽の歌唱音声と比較している.各ジャンルに関する違いを示すためにLPCケプストラム空間上でのマハラノビス汎距離を用いて, 各ジャンルの歌唱音声間にどれだけ違いがあるのか, また各ジャンルにおける話声と歌唱音声にどれだけ違いがあるのかが調べられている.その結果, 歌唱音声に関して, 洋楽と狂言との距離は洋楽-能, 能-狂言間よりも大きく, 話声と歌唱音声の間の距離は, 洋楽, 狂言, 能の順番に大きいことが示されている.また, 話声と歌唱音声の違いはジャンル間の違いよりも小さいこと, 各ジャンルの話声ですでに分布の差が見られることから, 各ジャンルの専門家は話声においても歌唱音声に近い多少特殊な発声を行っていると推察している.
著者
重森 猛 金子 剛志 緒方 淳 藤本 雅清 有木 康雄 塚田 清志 濱口 伸 清瀬 基
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.618, pp.33-40, 2003-01-23
参考文献数
14
被引用文献数
6

本研究では、野球のラジオ実況中継音声に対して大語彙連続音声認識を行い、キーワードを抽出してハイライトシーンを検出することを目的としている。音声認織部をより頑健にするために、音響モデルでは、MLLR+MAP適応による教師あり、教師なし適応を行っている。この音響モデルの2段階適応を用いることにより、アナウンサーの話者性に適応することができ、ベースラインに比べ単語正解精度で約28%の改善が得られた。言語モデルでは、言語モデルの融合、選手名のクラス化、発音辞書の修正を行い、ベースラインに比べ単語正解精度で約13%の改善が得られた。それぞれの適応を統合することにより、単語正解精度で約38%の改善が得られた。
著者
ユー ジェイソン 足立 整治
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.332, pp.23-28, 2003-09-23
参考文献数
8

気流に平行と垂直の両方向に振動する声帯の機械モデルを用いた音声の合成を行なう.このモデルは,2質量モデルにみられるような発音周波数の急激な変化をともなうことなく,インダクティブな音響負荷における発声からキャパシティブな音響負荷における発声へのなめらかな遷移をシミュレートできる.また,日本語5母音の声道形状を用いて音声合成を行なったところ,合成音声は2質量モデルによる合成音声と同等の品質を持つことが分かった.
著者
佐藤 庄衛 世木 寛之 尾上 和穂 今井 亨 田中 秀樹 安藤 彰男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.136, pp.9-15, 2000-06-15
被引用文献数
4

ニュース番組に対する自動字幕放送の字幕付与率向上を目的とした適応音響モデル作成法を提案する.提案手法では, 大規模学習音声データベースから適応データを選択する方法として, GMMを用いた2段階クラスタリングを行い, クラスタごとに適応音響モデルを作成する.本手法を用いて, 4つのニュース番組1日分の認識実験を行った結果, クラスタ数を12としたときに最大の効果が得られ, 本手法を用いないベースラインに比べ, 33%のWER削減率, 25%のデコード所要時間削減率が得られた.また, 音響モデルの決定に使用する入力音声を文頭の0.4秒に制限してもモデル選択精度が変わらなかった.この場合, 認識に使用する音響モデルの決定に必要となる時間を考慮した全体の所要時間でも18%の削減率が得られた.
著者
川俣 眞人 山本 幹雄 板橋 秀一 大村 浩 田中 和世
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.392, pp.9-14, 2000-10-19

ホルマント型音声合成方式において、ホルマント振幅の項に声帯振動の影響による効果を表すための非線形項を導入することによって音質が改善されることは既に報告した。非線形項は音質改善の他に音声の自然性や個人性にも影響を与えることが予想される。今回はその非線形関数を10話者、5母音別に新たな関数モデルを導入していくつかのパタンとして類型化することを試みた。その結果このモデルの妥当性を確認することができた
著者
清水 裕文 山本 淳一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.639, pp.55-62, 1999-03-05
被引用文献数
2

「わ」と「ば」、「だ」と「ら」の音声弁別に困難を示す発達障害児を対象に、見本合わせ法に基づいた刺激シェイピング手続きが、それぞれの音声弁別の成立に有効であるかを検討した。弁別性を高めるために、コンピュータを使用して音声刺激を加工し、徐々に目標とする刺激へと変化させてゆく訓練を実施した。その結果、試行ブロック化手続きとの併用によって、誤反応を最小限にしながら音声弁別が獲得された。このことは、聴覚刺激を用いた場合にも刺激シェイピングが有効であることを示し、発達障害児の音声弁別を 改善するための指導法として利用可能であることを示した。
著者
大田 健紘 江原 暉将
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.338, pp.261-266, 2008-12-02

本研究では,条件付き確率場を用いて音声認識結果の重要語に対するタグ付および,発話の分類を行い,その結果から,音声認識誤りなどに起因するユーザ発話の曖昧さを解消するための対話戦略について検討を行っている.音声対話システムにおいて,音声認識誤りによりシステムが発話を受理できない場合,毎回確認対話を生成していては利用者にとって非常にわずらわしい.そこで,想定発話を用意しておき,それらを同じような内容を表す発話群に分類し,音声認識結果の各発話群への分類結果をもとに,発話の曖昧な箇所の同定を行っている.その結果から,発話の一部分のみの再認識により音声認識誤りの修正を行う,もしくは確認対話の生成を行い利用者に音声認識誤りの修正行わせるかを決定している.システムが得ることのできる情報をもとに,利用者の発話の推定を行い,自動的に修正をすることによって,利用者側の負担を軽減することが可能になっている.評価の結果,音声認識誤りに対して頑健に発話内容の分類を行うことが可能であり,その結果から音声認識誤り箇所およびタグ付けの誤り箇所を同定し修正することも可能であることを確認している.
著者
釜森 勇樹 川村 新 飯國 洋二
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.109, no.57, pp.35-38, 2009-05-21

本論文では,ゼロ位相信号解析による広帯域雑音の除去について検討する.ゼロ位相信号とは,全周波数成分の位相をゼロに変換した信号であり,観測信号の振幅スペクトルの逆フーリエ変換として定義される.ゼロ位相信号へ変換することにより,振幅スペクトルの周波数軸方向の周期性を解析し利用することが可能となる.筆者らは,ゼロ位相信号解析の応用例として,白色雑音およびインパルス雑音に対する雑音除去法を提案してきた.本論文では,ゼロ位相信号解析によって,より一般的な広帯域雑音の除去が可能になることを示す.
著者
川島 啓吾 橘 誠 山岸 順一 小林 隆夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.496, pp.151-156, 2005-12-15

本論文では, 多空間上の確率分布(MSD)に基づくHMMを用いた音声の感情・発話様式の識別について検討している.MSD-HMMにより音声のスペクトル情報と基本周波数(F0)の同時モデル化を行い, 複数の話者の平静調音声で学習されたユニバーサルバックグラウンドモデル(UBM)を目標話者・スタイルの少量の文章によりモデル適応し, 話者及びスタイルの同時適応を行ったモデルを用いて識別を行っている.まずMSD-HMMを用いて特徴量にF0を含めることで識別率が改善することを示し, 次に, 適応時の初期モデルとしてUBMを用いる場合と, 目標話者の読上げ音声から作成した話者依存モデルを使用する場合の比較を行い, UBMを用いて話者とスタイルの同時適応を行った場合においても, 話者依存モデルと同等の性能が得られることを示す.最後に, ナレーション経験のない話者の音声を用いた評価実験を行った結果を示す.
著者
藤沢 望 岩宮 眞一郎 高田 正幸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.750, pp.19-24, 2004-03-23
被引用文献数
5

擬音語からイメージされる音の心理的性質を調べ,擬音語表現との関係を探った.擬音語20語を刺激とした類似性判断実験と多次元尺度構成法から得られた3次元解に対し,一対比較法,SD法で得られた音の大きさや音色に関する尺度値を用いて重回帰分析を行い,刺激布置の解釈を試みた.その結果,I軸は音の「長さ」,III軸は音の「高さ」と「美的因子」に対応しており,H軸では正方向に濁音・半濁音を含む擬音語,負方向に繰り返し表現による擬音語が多く位置していた.また, 「長さ」と長音,「高さ」と母音/i/,「美的因子」と有声・無声子音など,特定の心理尺度と擬音語表現には対応が見られ,過去の研究結果と一致していた.
著者
柴田 勝征
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.434, pp.55-59, 2008-01-17

1980年代頃から、日本の青少年たちの間に、さまざまな異常な現象が報告されるようになった。先行研究事例を振り返ってみると、「分数ができない大学生」という形で学力低下問題が問題とされ、次に「オレ様化する子供たち」と言われる、目の前の事実を認めない中・高生の大量出現、ニート・引きこもり・パラサイト・「自分探し」などの深刻化、そして最近では「希望格差社会」「下流志向」など、「格差社会」との関連が強く意識されるようになってきた。発表者(柴田)は、福岡大学理学部での10年間の数学教育体験から、これらの現象に通底している根本原因が、「因果律が認知機能から欠損している」ことだという結論を得た。先行研究で報告された事例の本当の原因を再解釈し、社会的な理解と解決策を提案する。
著者
岡 隆一 西村 拓一 伊原 正典 張 建新 赤坂 貴志
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.155, pp.29-35, 2001-06-21
被引用文献数
1

音声やテキストの検索方式を音素記号の系列表現に基づいて構成することを提案する。検索対象のデータである音声波形の各分析フレーム特徴は音素記号に変換される。検索対象のテキストはその読みをひらかなで記述され、さらに音素系列へと展開される。このとき、この各音素表記については平均継続時間長を前もって定めておき、各音素記号について平均時間長のフレーム区間に同一音素記号を配置し音素記号系列とする。クエリーを音声とする場合、このクエリー音声をフレーム単位に音素認識を実行する。音素系列表現の検索対象の音声やテキストと、クエリー音声の音素記号列との間では連続DPによるスポッテイングを行い、データベース中の一致する部分を検索結果とする。
著者
柴田 武志 赤木 正人
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.551, pp.117-122, 2008-03-13

本稿では,連続発話音声中に含まれる音響特徴量を静的な特徴,および動的な特徴に分類し,これらがどのような順序で男声・女声知覚に寄与しているか明らかにすることを目的とする,(1)声質変換モデルを用いて連続発話音声から静的特徴および動的特徴を表すパラメータ値を抽出する.(2)各パラメータ値が男声・女声で違いがあるかどうかを確かめるためにMDSによるパラメータ値の分析を行う.(3)MDS分析によって,違いが見られた特徴量を表すパラメータ値が男声・女声知覚にどう影響を与えているかどうかを調べるために,パラメータ値を平均した平均音声と,男声・女声の静的特徴,および,動的特徴を表すパラメータ値とを入れ替えた音声を合成し,男声・女声を判別する聴取実験を行った.その結果,男声・女声知覚には静的特徴である平均基本周波数とスペクトル包絡が大きな影響を与えており,次いで,動的特徴である基本周波数の変化と音韻長が影響を与えており,スペクトルの変化とゲインのダイナミックレンジはあまり影響を与えていないことが明らかになった.
著者
阿部 匡伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.93, no.427, pp.69-75, 1994-01-21
被引用文献数
7

音声変換処理技術は、音声出力を利用したアプリケーションに必要な基本技術である。現在これらの技術は、任意の音声が合成できる規則合成をはじめ、蓄積された音声の高速再制(音声ブラウジング)等に用いられている。本稿では、音声の分析合成方式として、音声のスペクトル包絡に着目した分析合成系、音声の調波構造に着目した分析合成系、短時間スペクトル変換を用いる分析合成系、波形領域で処理する分析合成系をとりあげ、これらの分析合成方式毎に、音声の基本周波数、継続時間、声質の変換方式を幾つか紹介する。
著者
管村 昇
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.93, no.32, pp.21-26, 1993-05-21
被引用文献数
6

ここ数年、音声認識、音声合成などの音声情報処理技術の応用が活発に検討されている.パーソナルコンピュータ用の音声認識、音声合成ボートなども開発され、これらの技術が身近かに利用できるようになってきている.この背景には音声合成技術が実用に供せられるレベルにまで連してきたこと、ハードウェアの進歩などが考えられるが、音声による数々のサービスニーズが潜在していることが大きな理由の一つとしてあげられる.特に電話を用いたサービスは、利用者が新たな設備を付加することなく、種々のサービスが受けられるメリットがある.本稿では電話網における音声認識技術の応用を概観すると共に、電話網における音声認識の技術的な課題と解決法について述べる.
著者
管村 昇
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.94, no.372, pp.31-38, 1994-11-25

きたるべき"マルチメディア時代"に向け,通信インフラの整備が進められつつある.このような状況下で,ここ数年,音声認識,音声合成などの音声情報処理技術の応用が活発に検討され,これらに対する世の中の期待も大きい.パーソナルコンピュータ用の音声認識,音声合成ソフトウェアなども開発され,これらの技術が身近かに利用できるようになってきている.この背景には音声認識,音声合成技術が実用に供せられるレベルにまで達してきたこと,CPU,DSPなどハードウェアの高速化などが考えられるが,音声による数々のサービスニーズが潜在していることが大きな理由の一つとしてあげられる.特に電話を用いたサービスは,利用者が新たな設備を付加することなく,種々のサービスが受けられるメリットがある.本稿では通信分野(電話網)における音声処理技術の応用を傾観すると共に,電話網における音声処理技術の技術的な課題について述べる.
著者
広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.520, pp.53-56, 2003-12-12

韻律は、文字言語にはない音声言語特有の特徴であり、人間のコミュニケーションにおいては、言語情報はもちろん、意図、態度、感情といったパラ言語情報、非言語情報の伝達に重要な役割を果たしている。しかしながら、この重要性にもかかわらず、特に工学的見地からは、研究の焦点は主として音声の音韻に置かれてきた。音声言語情報処理研究の今後の発展は、韻律の明確な定式化を行った上で、それに立脚して進めることによって初めて可能になると考えられる。このような観点から、韻律に関連した研究を進めているわが国の主要な研究者の緊密な協力により、韻律の基礎から応用までを統合して発展させ、音声言語情報処理の高度化に資することを目的とした文部科学省特定領域研究が2000年10月からスタートした。総括班を含めた8班の計画研究班体制で4年間の研究を進めた結果、韻律のモデル化、韻律の多様性の分析、韻律コーパスの作成、韻律の観点からの音声合成・音声認識の性能向上、韻律を利用した音声対話システムの開発、医療福祉技術の向上等について多くの成果を達成した。本研究は2003年度が最終年度であるが、それによって定着した韻律研究の流れは今後も継続し、真に使いやすい音声言語マン・マシン・コミュニケーションの実現に大きく寄与すると期待される。
著者
大倉 計美 飯田 正幸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.93, pp.23-30, 1996-06-14
被引用文献数
8

本報告では、移動ベクトル場平滑化話者適応化方式(VFS)における内挿処理および平滑化処理の制御方法について述べる.本方法は正解音素HMM系列という事前情報に基づく制約から得られる音素HMM系列ξ_cと,あらゆる音素HMM系列の生成をゆるした条件下において得られる音素HMM系列ξ_gとの比較から得られる音素HMMの状態系列誤りを情報として内挿および平滑化を制御することにより,平均ベクトルの推定精度を向上させるものである.今回,最大事後確率推定法(MAP推定法)とVFSとを組み合わせたMAP-VFS法をベースとした話者適応化手法に本制御方法を適用した結果を示す.