著者
小西 宏志 嶌田 聡 森本 正志
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.104, no.631, pp.19-24, 2005-01-21
被引用文献数
5

最近のハードディスク・ビデオ・レコーダーやソフトウェアのムービープレーヤーには, 映像を速覧したり, シーン検索できるように高速再生機能を備えたものがある.しかし, 現状では, 1.5∿2.0倍速で再生する場合には音付きで高速再生されるが, それ以上のスピードで高速再生する場合には音無しで動画のみを高速再生するものが多い.これは, 高速再生において動画より音声がボトルネックであり, 音声をリニアに高速再生させた場合に聞き取れる限界が2倍速程度であるためである.本稿では, 映像速覧に適したノンリニア時間圧縮方法を提案し, 2倍速以上の音声の高速再生でもシーン検索できる程度の了解性を維持できることを実験で示した.
著者
宮林 穎夫 船田 哲男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.239, pp.25-32, 2000-07-20
被引用文献数
1

音声の基本的特徴であるピッチ周波数の検出は、音声分析合成を行う上で、最も重要な研究課題の一つである。本論文では、連続音声の有声/ 無声判定およびピッチ抽出に, 我々の提案する帯域フィルタ対(BPFP)バンクを利用する方法が、ピッチ周期の乱れやピッチごとの波形変動、雑音付加に対してどのような性能を示すかを, ケプストラム法や変形相関法と比較し検討する。実験の結果, BPFP法は他の代表的な手法であるケプストラム法や変形相関法と比べて, 性能が比較的安定し有効なピッチ抽出法であることと, BPFPバンク中心周波数間隔の対数化によって, 特に低周波数帯域で効果があらわれることがわかった。また, BPFPバンクと組み合わせたNN法は, 設定が困難なU/V判定のための閾値をいちいち決めなくても, NN学習により逐次U/V判定を行うことができる利点を明らかにした。
著者
白木 善尚
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.99, no.73, pp.53-60, 1999-05-20
被引用文献数
1

我々は音声信号のスペクトルに関する2話者間の補間の取り扱い方を調べた。その結果、自然性を保持可能な空間の構造に関して以下を主張する:(1)滑らかな補間という側面からヤン-ミルズ方程式の解空間(モジュライ:幾何学的な対象をパラメータづけている多様体)が利用できる。すなわち「接続のエネルギー最小化問題」として扱うことが可能である。(2)具体的な解のひとつとして平坦接続がある。(3)この平坦接続から時間軸方向の区分線形補間が導出される。(4)区分線形補間からスペクトルの動的尺度の相似変換が導出される。(5)平坦接続から周波数方向の尺度Laplacian Spectral Distance(LSD)が導出される。(6)区分線形補間の設計アルゴリズムを考案した。(7)LSDとIFISを(局所周波数領域で)組み合わせたアルゴリズムを考案した。(8)聴取実験の結果、考案アルゴリズムによる補間合成音声は比較的良好な自然性が確認された。
著者
前川 喜久雄 北川 智利
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.99, no.74, pp.9-16, 1999-05-21
被引用文献数
2

筆者らはこれまでにパラ言語情報の伝達にかかわる音声特徴を音饗的に分析してきた. 本稿ではパラ言語情報の知覚に対する検討をおこなう. 6種類のパラ言語情報(疑い, 感心, 落胆, 無関心, 中立, 強調)の同定実験を実施し, そのデータから計算された類似度を多次元尺度構成法(MDS)によって解析したところ, 3次元解が最適との結果を得た. 三つの次元それぞれにおける刺激の座標値を従属変数, これまでに報告してきた音響特徴を独立変数として重回帰分析をおこなったところ, 高い精度で刺激の布置を予測できることが明らかになった.
著者
岡本 英樹 小島 摩里子 松井 知子 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.79-84, 2007-07-19

本稿では非可聴つぶやき(Non-Audible Murmur:NAM)を用いた話者照合法について,新たに収集したデータを用いて分析した結果を報告する.NAMとは,外部の騒音に対して頑健な体表接着型マイクロフォンを用いて収録したつぶやき音声を指す.これまでNAMの発声内容が他人に漏れ聞こえることがないという利点を活かし,NAMによるキーワードを利用したテキスト依存型話者照合法を提案してきた.今回は,新たに男性18名,女性9名のNAMを収録し,それらを詐称者セットとして用いて実験を行い,その性能を詳しく調べた.また,学習に使用する発声数,時期数をいろいろと変えて実験することにより,複数時期にわたって収録された音声を使用することの有効性を示す.また,話者照合システムを利用するユーザにとって登録時に必要となる発声数が少ないほど負担は軽減する.そのため,学習データに使用する発声数を減らして実験を行い,その性能の劣化の度合いを調べることにより,どのくらいの音声データが登録時に必要となるかを明らかにする.
著者
戸田 智基
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.422, pp.73-78, 2009-01-22

声質変換は,言語情報を保存したまま話者性等の非言語情報を変換する技術である.従来の統計的手法に基づく枠組みでは,入力話者と出力話者が同一内容を発声しているパラレルデータを数十文程度用いて,特定話者対を対象とした変換モデルを事前に学習する必要がある.我々は,この制約を大きく緩和する枠組みとして,任意の話者を対象とした声質変換技術の研究開発に取り組んでいる.多数の異なる話者の音声データを有効利用することで,任意の話者からある特定の話者への変換(多対一声質変換)と,ある特定の話者から任意の話者への変換(一対多声質変換)が可能となる.本報告では,これらの変換を実現する技術について紹介する.
著者
戸田 智基 大谷 大和 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.221, pp.25-30, 2006-08-23
被引用文献数
2

声質変換(Voice Conversion: VC)の新しい枠組みとして,固有声に基づく声質変換法(Eigenvoice Conversion: EVC)を提案する.本報告では,ある特定の話者から任意の話者への変換(一対多VC),および任意の話者からある特定の話者への変換(多対一VC)に対してEVCを適用する.EVCでは,予め収録された多数話者によるパラレルデータを用いて,固有声混合正規分布モデル(Eigenvoice Gaussian Mixture Model: EV-GMM)を事前に学習する.EV-GMMは出力(多対一VCでは入力)音声の声質を制御する少量のフリーパラメータを持つ.所望の話者に対する変換モデルは,その話者の音声データに対してフリーパラメータを最尤推定する事で構築される.この際に,発話内容に関する情報は一切使用しないため,完全な教師なしモデル適応が実現される.さらに,一対多VCにおいては,フリーパラメータを声質制御イコライザーとして用いることで,出力変換音声の声質を手動で制御する事も可能である.一対多VCおよび多対一VCにおいて実験的評価を行った結果,EVCでは所望の話者の音声データが2文程度あれば,高い変換精度が得られる事が分かった.
著者
木山 次郎 伊藤 慶明 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.95, no.123, pp.81-88, 1995-06-23
被引用文献数
22

蓄積された任意話題の音声から重要な単語を取り出したり、話題の境界を検出することができれば有用であろう。本稿では、音声中の互いに類似した十分な長さの区間を抽出することによって重要区間抽出を実現する手法を提案する。この方式は、任意の話題について詳細な要約が可能という利点を持つ。1名の話者の発声した模擬対話音声を対象に実験を行ない、本方式の有効性を確認した。また、本稿では、互いに類似する区間の対応関係を利用した、話題境界の抽出法を提案する。1名の話者が発声する4話題の模擬対話を接続した音声を用いた実験により、本手法が有効であることを確認した。さらに、本稿では、長時間の音声中の類似区間を抽出するのに適した手法として、Incremental Reference Interval-free Continuous Dynamic Programming(IRIFCDP)を提案する。
著者
河原 英紀 増田 郁代
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.449, pp.19-24, 1997-01-17
被引用文献数
12

音声の時間周波数特性を有声音の周期性についての新しい観点に基づいて復元することに基礎を置く音声分析・変換・合成方法STRAIGHT (speech Transformation and Representation using Adaptive Interpolation of weiGHTed spectrogram) の近似特性の改良について報告する。本資料では、STRAIGHTで用いていた区分的一次関数が2階のカーディナルB-スプラインであることに注目し、スプライン関数近似理論に基づいて近似特性を評価し、改良方法について説明する。また、この改良を有効に機能させるため、二つの相補的な窓関数を組み合わせて、零を含まないパワースペクトルを計算する方法を提案する。これらの改良の結果、STRAIGHTによる分析合成音声は、ヘッドフォンによる受聴の際にも、場合によっては、原音声と区別がつかない程度に改良された。
著者
小窪 浩明 匂坂 芳典 鈴木 紀子 岡田 美智男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.93, pp.81-88, 1996-06-14
被引用文献数
1

自然な発話における多様な挙動をとらえるために,有機的な振る舞いに基づいたパージングアーキテクチャ,Situated Parserを提案Lた.このSituated Parserは,局所的な制約間での協調/競合作用の中から有機的に創発される秩序によって,次にとる動作が動的に決定されるという特徴をもつ.したがって,従来のパーザのように言語の多様性に合わせた手続き的な記述を必要とせず,より柔軟なパージングを行うことが可能となる.本稿では,このSituated Parserの動作メカニズムを説明するとともに,この特徴として,局所的な制約に基づく有機的な振る舞いと多重ゴールについて述べる.また,実験による動作例を検証し,局所的な制約による自律的な振る舞いによって,複数の仮説の中からいちばん尤もらしい仮説が優先的に生成され,手続き的な制御なしにパージングが行われることを示す.
著者
藤本 雅子 前川 喜久雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.248, pp.29-34, 2002-07-19
被引用文献数
1

「疑い」や「落胆」などのパラ言語情報は日常の話し言葉では頻繁に生じる現象であるが,その生成メカニズムはよく理解されていない.パラ言語情報の伝達メカニズムを解明するための研究の一貫として,高速デジタルビデオによる喉頭の観察を実施した.3種類のパラ言語情報(「中立」「疑い」「落胆」)を意図して発話された一語文/駅/における声門面積と声帯間距離を計測した.またModal,Breathy,Creakyなどの発声様式による孤立母音/e/のデータを別途測定し,両者を比較した.その結果,「中立」発話ではModa1な発声が観察されるのに対して,「落胆」ではbreathyな,「疑い」ではcreakyな発声が行なわれていることが確認できた.パラ言語情報に起因するこのような発声様式の変化が母音部にも子音部にも観察され,発話の全体を通して維持されていることから,パラ言語情報に起因する発声様式制御の領域は発話全体であることが示唆された.換言すれば個々の分節音の制御ではなく,声質の制御であることが示唆されていると考えられる.
著者
竹本 浩典 足立 整治 北村 達也 本多 清志 モクタリ パーハム
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.97, pp.13-17, 2005-05-19
被引用文献数
2

喉頭腔の音響特性を求めるため, 5母音の声道断面積関数を用いて共鳴モード解析を行った.その結果, 喉頭腔の共鳴周波数付近では, 喉頭腔と咽頭腔との接続部で体積速度が増大するため, 喉頭腔を除く声道部分(主声道)に両端を開口端とする共鳴モード(開管共鳴)が生じることが示され, その共鳴は本研究に用いた声道では第4フォルマントであった.それ以外のフォルマントでは喉頭腔と咽頭腔との接続部における体積速度が小さいため, この部分を閉鎖端として主声道に片開き管の共鳴モード(閉管共鳴)が生じることも明らかになった.
著者
北村 達也 竹本 浩典 足立 整治 モクタリ パーハム 本多 清志
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.178, pp.43-48, 2006-07-14

声帯振動に伴う声門開口面積の変化が喉頭腔で生じる共鳴(喉頭腔共鳴)に与える影響を調査した.成人男性3名の日本語5母音発声時の声道伝達特性を声門閉鎖および開放の条件で計算した結果,喉頭腔共鳴は声門閉鎖時にのみ3.0kHzから3.7kHzの周波数帯域に生じ,声門開放時には消失することが明らかになった.さらに,母音の実音声の声門閉鎖および開放区間を対象としたスペクトル分析によって,喉頭腔共鳴がピッチ周期内で出現と消失を繰り返すことが示された.これらの現象は,声門閉鎖時には喉頭腔が閉管となることにより喉頭腔共鳴が生じ,声門開放時には喉頭腔が開管となることにより喉頭腔共鳴が消えると説明できる.
著者
赤木 正人 水町 光徳
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.178, pp.1-8, 1997-07-18
被引用文献数
3

本報告では、マイクロホン対を用いて時間・周波数が局在した雑音を推定し、推定した雑音を引きさることによって信号音を浮かび上がらせる手法を提案する。これと同様の考え方を基にした方法としてGrifiths-Jim型のビームフォーマがあるが、適応フィルタの収束が遅いため、到来方向が変化する雑音とか突発的な雑音には対処できない。また、雑音と信号音は無相関であることを仮定しているため、残響などで相関が存在すれば、信号音が歪むなどの問題がある。一方本手法は、雑音をモデル化しできる限り解析的に抽出することによって、この問題を回避し、雑音を取り去っている。主マイクロホン2本と補助マイクロホン1本を用いた場合の性能評価の結果、合成波形を用いたシミュレーションの場合SN比が10〜20dB向上し、実環境では雑音が含まれない信号音との対数スペクトル距離が約5dB減少した。
著者
坂野 秀樹 陸 金林 中村 哲 鹿野 清宏 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.177, pp.15-20, 1997-07-17
被引用文献数
9

これまで音声の短時間位相は振幅情報に比べると聴覚的に重要でないという理由でなおざりにされてきた. しかし, 高品質な音声合成や符号化を考えた場合, それは必ずしもあてはまる訳ではなく, 短時間位相も合成音の品質に大きく関わってくる. ところが, 振幅スペクトルにはいくつかのパラメータ化法が確立されており効率的な表現が可能なのに対し, 短時間位相にはそのような方法は確立されていない. そこで, 短時間位相を効率良く表現する方法を提案し, 主観評価及び客観評価の両方から提案手法の有効性を示す.
著者
植村 祐二 森勢 将雅 西浦 敬信
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.110, no.56, pp.1-6, 2010-05-19

近年,音声認識技術の飛躍的な発達に伴い,音声認識を活用した音声情報案内システム等が利用されるようになりつつある.しかし,騒音環境下での音声認識性能は,十分なSNRが確保できないことや,ロンバード効果と呼ばれる発話変形により低下するという問題がある.ロンバード効果とは,十分な聴覚フィードバックが確保できないときに生じ,基本周波数やフォルマント周波数等,音声認識に用いる特徴量に変化が生じる現象を示す.このロンバード効果により,騒音環境下での音声認識性能が静環境下での音声認識性能に比べ著しく低下するという問題がある.そのため,騒音環境下における音声認識性能の改善には,ロンバード効果の抑圧が必要となる.しかし,ロンバード効果の抑圧には大量のロンバード音声と平常音声が必要となるが,データが不足しているのが現状である.そこでまず,ロンバード効果を含むロンバード音声コーパスを構築した.構築したコーパスから,ロンバード効果による特徴の変化を詳細に分析し,ロンバード音声と平常音声の識別実験を実施した,識別実験は主観評価とマハラノビス距離による客観評価にて行った.その結果,主観客観評価ともに平均80%を超える識別率が確認できた.次いで,分析したロンバード音声の特徴をリサンプリング処理を施し平常音声の特徴に変換することで,ロンバード音声の音声認識性能の改善を試みた.その結果,ロンバード音声の特徴を平常音声の特徴に変換することによって,女声約10%,男声約4%の音声認識性能の改善が確認できた.
著者
平野 宏子 顧 文涛 広瀬 啓吉 峯松 信明 河合 剛
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.333, pp.19-24, 2006-11-03

日本語学習者が自然な発音・イントネーションで話したいと願うとき,ピッチ・アクセント言語の日本語において,その自然性に主要に関わる基本周波数の適切な制御が重要になる.本研究では,母語話者と学習者(標準中国語話者)の基本周波数パターンを比較し,その特徴を分析する.その際,1)表層の音声に現れる基本周波数パターンの特徴を,F_0の局所的な上昇下降の形状や発話全体のレンジの変化の様相から述べ,2)音声合成分野に広く用いられている基本周波数生成過程モデルを,第二言語の韻律習得の分析に応用し,いくつかのパラメータから個々の特徴を分離して定量的に調べる.モデルによる分析からは以下のことが示された.1)基底周波数は学習者の方が高い,2)フレーズ指令の生起数が多く,形成される韻律句が短い,3)文節中にアクセント指令が多く生起し,文節がいくつかの韻律語に分解される,4)文(節)末で急激なF_0下降が生じ,局所的に負のアクセント指令が導入される.これらの特徴は,音節毎に声調型を持つ中国語音声の影響,第二言語発話の不慣れ,適切な韻律指導の不足に起因すると考えられる.
著者
神谷 賢 雨宮 沙織 有泉 均
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.86, pp.7-13, 2001-05-17
被引用文献数
1

筆者らは声道模擬型の規則音声合成器の研究をしている. 今回人間の放射音声/a/から求めた逆フィルタ波形を1波形に切り出さないで連続したまま音声合成器へ入力した. すると, その人の個人性を保存した肉声レベルの/aiueo/を合成できた. このため, この方法を使えば, 数式でのモデル化が困難な声質も実現できる可能性がある. また, 筆者らの合成方法はターミナルアナログ型であるため, 人間の発声機構の理解に役立つと思われる. 今後は様々な性質を実現する.
著者
大橋 力 仁科 エミ 不破本 義孝 河合 徳枝 森本 雅子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.539, pp.29-34, 1997-02-20
被引用文献数
9 1

26kHzをこえる高周波成分は、それ単独では人間に音としてきこえないにもかかわらず、それをふくんだ音は、それを除外した音にくらべて、脳波α波ポテンシャルを統計的に有意に増大させるとともに共存する可聴音をより快適に感受させる効果をもつことをみいだした。この高周波成分のもつ感性効果「ハイパーソニック・エフェクト」について、研究の経緯、使用したシステム、高周波成分の生理学的・心理学的効果などについて概観する。
著者
中村 敬介 西村 竜一 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.632, pp.13-18, 2004-01-22
被引用文献数
9 1

実環境における音声インタフェースでは笑い声や咳などのユーザが意図しない入力や周囲の雑音による誤入力,あるいは笑い声などの通常の発話と区別すべき入力が多く存在する.本研究では,音声/雑音,および通常発話/不要音を識別する頑健な音声対話システムを目指し,そのためのGaussian Mixture Model(GMM)を用いた環境雑音および不要発話の識別法およびその効果について報告する.生駒市北コミュニティセンターの公共音声情報案内システム「たけまるくん」におけるフィールドテストで収集したユーザ発話を複数のクラスに分類し,それぞれの音響的特徴をGMMに学習させて音声識別実験を行ったところ,各クラスごとでの識別率は128混合GMMで平均80.6%,音声/非音声の識別率は96.3%を達成し,GMMによる識別が可能であることが確認できた.音声/非音声の識別においても,2クラスのGMMよりも雑音の種別ごとにGMMを用いるほうが高い識別性能を示した.また,Cepstral Mean Subtraction(CMS)を行わないことで,クラスごとの識別性能を平均3.2%向上できることを確認した.