著者
大谷 大和 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.91, no.4, pp.1082-1091, 2008-04-01
被引用文献数
3

声質変換において,スペクトル特徴量系列の統計的モデル化技術の発展により,その変換性能は大幅に改善された.しかし,声質変換で用いられる音源モデルでは実際の音源を正確に表現できていないため,その変換音声の自然性は十分なものとはいいがたい.これを改善するために,スペクトル特徴量系列と同様に音源特徴量系列に対しても統計的なモデリングを行う必要がある.本論文では混合正規分布モデル(Gaussian Mixture Model: GMM)に基づく声質変換法の枠組みに対してSTRAIGHT混合励振源を導入する.提案法では,スペクトル特徴量系列及び音源特徴量系列に対して最ゆう推定(Maximum likelihood estimation: MLE)に基づく特徴量変換が行われる.客観評価実験並びに主観評価実験の結果より,提案法により音質,話者性変換精度が大きく改善されることを示す.
著者
鮫島 充 ランディゴメス 李晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.47, no.7, pp.2295-2304, 2006-07-15
被引用文献数
2

子供の音声は,声道長や基本周波数が成人音声と異なるだけでなく,発声スタイルが自発的で年齢や個人による声の変動も大きいため,通常の成人用音韻モデルでは認識精度が著しく劣化する.また,子供が正確に文章を読み上げることは多大な労力が必要であり,大規模な整った音声データベースの作成が難しい.本研究では,子供の自発的な発話の高精度な認識を目指して,音声情報案内システムによる子供の実音声の大規模収集,年齢層別子供用音韻モデルの構築と評価,および教師なし話者適応の検討を行った.大語彙連続音声認識実験より,実環境で収集した子供音声を用いることで,単語認識精度が71.1%と既存の読み上げ音声モデルに比べて絶対値で23.9%の改善が得られた.また,年齢層別の傾向では,特に幼児の音声において年齢層依存モデルによる大幅な精度改善が見られた.次に,自動収集した話者ラベルなしの大量データに対する,自動話者クラスタリングを用いた十分統計量に基づく教師なし話者適応を提案した.提案法により59 966個の発話データをクラスタリングし,近傍話者クラスタを用いて音韻モデルを適応することで,クラスタ数200の条件において,年齢層依存モデルに対してさらに幼児で2.2%,低学年子供で1.7%,高学年子供で0.5%の認識性能の改善が得られた.Child's utterance has totally different property from adult's speech, not only by their acoustic property, but by their incorrect pronunciation and totally ill-formed speaking style. The rapid physiological changes during the growth also prevent accurate speech recognition using a single model. However, collection of child's read speech is difficult in natural, since forcing them to read a sentence precisely will make the utterances far from spontaneous one. In this research, we evaluated acoustic models and an unsupervised adaptation method based on a large number of real spontaneous child speech automatically collected through an actual spoken dialogue system. Acoustic model trained by an actual spontaneous speech achieves the word accuracy of 71.1%, which outperforms one trained by read speech by 23.9%. Detailed investigation is carried out for child's ages (infant pupils, lower-grade elementary schoolers and higher-grade elementary schoolers), and accuracy of the infant pupils was greatly improved by using the age-dependent model. Then a speaker clustering method is proposed to perform unsupervised speaker adaptation based on HMM Sufficient Statistics on automatically collected database where no user tag is available. Clustering the 59,966 utterances to 200 speaker clusters, and selecting the neighbor one for each input to construct the adapted model has resulted in a further improvement of recognition accuracy by 1.5% as compared with age-class dependent models.
著者
藤田 洋子 竹内 翔大 川波 弘道 松井 知子 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.3, pp.1-6, 2010-02-05

実環境で,音声認識を用いた音声情報案内システムを稼動させる場合には,雑音などの音声以外の入力やユーザ同士の背景会話などが混入されてくることがある.これらの入力はシステムの誤作動・誤認識を引き起こし,システムの応答性能を低下させる原因となる.そのため,システムへの入力として適当な入力 (有効入力) と不適当な入力 (無効入力) の識別を行い,無効入力を棄却することにより,無効入力に対する応答処理を行わないことが重要となる.一般的に有効入力と無効入力を識別には音響的特徴が用いられる.しかし,入力音の音声認識結果から得られる言語的な情報を使うことにより,無意味な認識結果が出力される雑音の識別に加え,システムのタスクの言語的な特徴を反映させた有効入力,無効入力を識別することが可能になると考えられる.そこで本稿では,Bag-of-Words (BOW) を特徴量とした Support Vector Machine (SVM) による無効入力の識別を検討した.実環境音声認識システム 「たけまるくん」 の入力データを用いた実験では,GMM に基づく無効入力の識別と比べ,分類誤り率を 23.30% から 15.90% に削減することができた.また,BOW に GMM から得られる音響尤度,発話時間や SNR を組み合わせた手法についても検討した.その結果,分類誤り率を 13.60% まで削減することができた.On a real environment speech-oriented information guidance system, a valid and invalid input discrimination process is important as invalid inputs such as noise, laugh, cough and meaningless utterances lead to unpredictable system responses. Generally, acoustic features such as MFCC are used for discrimination. Comparing acoustic likelihoods of GMMs (Gaussian Mixture Models) from speech data and noise data is one of the typical methods. In addition to that, using linguistic features, such as speech recognition result, is considered to improve discrimination accuracy as it reflects the task-domain of invalid inputs and meaningless recognition results from noise inputs. In this report, the authors propose to introduce Bag-of-Words (BOW) as a feature to discriminate between valid and invalid inputs. Support Vector Machine (SVM) is also employed to realize robust classification. Experiments using real environment data from the guidance system "Takemaru-kun" were conducted. By applying BOW and SVM, the classification error rate (CER) is reduced to 15.90% , from 23.30% when using GMMs. In addition, experiments using features combining BOW with acoustic likelihoods from GMMs, SNR and duration were conducted, improving the CER to 13.6% .
著者
西村 竜一 西原 洋平 鶴身 玲典 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.87, no.3, pp.789-798, 2004-03-01
被引用文献数
65

実環境下での音声インタフェースの研究プラットホームとして,生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムは,大語彙連続音声認識を基礎とする一問一答形式の音声インタフェースをもち,同センターや生駒市に関する受付案内を可能とする.システムはセンターのエントランスに常設され,開館時は誰でも自由にエージェントとのコミュニケーションを楽しむことができる.ユーザとシステムとのインタラクションの観察を目的とした5か月間にわたる本システムのフィールドテストを実施し,ユーザによる発話ログの収集を行った.本論文では,はじめに音声インタフェース部を中心に本システムの構成について説明する.フィールドテストの結果,男女幅広い年齢層のユーザによる発話を含む約1,362分の音声データを収集した.その分析の結果から,大人と子供で発話内容の傾向に違いはあるが,本システムは有効に利用されていることを示す.実験では,実際のユーザ発話によるベースラインの認識性能の評価を行い,大人に対して86%の単語認識率と76%の応答正解率を得ることができた.しかし,子供のユーザに対する精度が十分でないなど,音声インタフェースの実用化に向けて多くの課題が残されていることを確認した.
著者
松永 裕太 佐伯 高明 高道 慎之介 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-140, no.31, pp.1-6, 2022-02-22

本論文では,個人性を再現する自発的な音声合成の実現に向けて,言語学的知識に基づいた包括的な実験的調査を行う.近年発展している音声クローニングは流暢な朗読発話に限定され,より人間らしい自発的な音声合成のための新たな音声クローニングの手法が求められている.そこで本論文は,声色の個人性のみならず非流暢性の個人性を再現可能な自発音声合成に取り組む.具体的には,主要な非流暢性であり,心理学や言語学の研究により発話生成やコミュニケーションにおいて重要な役割を果たすことが知られている,フィラーを扱う.本論文では,話者依存と話者非依存のフィラー予測手法を比較評価するため,多話者コーパスで学習した話者非依存のフィラー予測モデルを用いた音声合成手法を提案する.実験的評価により,フィラーの位置と種類の関連,自然性と個人性のトレードオフを明らかにし,人間らしい音声合成の実現への方向性を示す.
著者
高橋 勇希 小口 純矢 高道 慎之介 矢野 昌平 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2020-SLP-132, no.22, pp.1-3, 2020-05-30

音響インパルス応答(IR)の測定には,Maximal Length Sequence や Time Stretched Pulse などの測定信号の利用が一般的である.通常,被測定系に人間が含まれるかどうかは考慮されないため,これらの測定信号が人間に与える聴覚印象が無視されている.他方,新たな生体認証として,人間の外耳道の音響インパルス応答が提案されており,個人に応じた音メディア提示などへの応用が期待されている.この被測定系は人間の聴覚器官を含むため,受聴者の心理的ストレスが小さい測定信号を利用すべきである.そこで本研究では,人間にとって心地よいとされる自然環境音での IR 測定手法,クラウドソーシングを利用した主観評価と周波数分析を用いた評価指標を提案する.実験的評価結果より,(1) 測定信号としての妥当さと聴覚的な心地良さを両立する自然環境音が存在すること,(2) 板倉斎藤擬距離に基づく測定信号選定は,雑音環境下の高精度IR測定にあまり寄与しないことを明らかにする.
著者
岩見 洋平 戸田 智基 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.619, pp.11-16, 2003-01-24

音声における感情表現は韻律におおきく影響されるといわれており,これまで,韻律を制御するためのさまざまな分析と,その分析から得られる規則を用いた合成手法が報告されている.しかし,それらの報告において,韻律は感情表現において重要な要素であるが,韻律だけでなく声質も重要な要素であると指摘されている.そこで本報告では,感情音声の声質を制御する手法として, GMM (Gaussian Mixture Model)に基づく声質変換を用いた感情音声合成手法を提案する.この手法では読み上げ調に発話された音声の声質を,感情音声のそれに変換する.本研究でははじめに,怒り,悲しみ,喜び,読み上げ調(平静)の音声データを収録した.そして,その音声を用いて感情音声への声質変換を行い,客観評価実験及び主観評価実験を行った.その結果,声質変換のみでは感情表現は不十分であるが,適切な韻律が与えられた場合,声質変換を行うことにより,感情の表現力が向上することが分かった.本報告では,感情音声データベースの作成と,その音声から作成した感情間の声質変換音声の評価について報告する.
著者
倉田 将希 高道 慎之介 佐伯 高明 荒川 陸 齋藤 佑樹 樋口 啓太 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.31, pp.1-6, 2021-02-24

本稿では,音声変換ユーザに目標話者のキャラクタ性を獲得して発話させるためのシステムを提案する.深層学習に基づくリアルタイム音声変換は,人間の発声器官の物理制約を超えて,ユーザの音声から所望のキャタクタ性を持つ音声への高精度な変換を可能にしつつある.しかしながら,音声のパラ言語情報(抑揚・強勢など)の変換は未だ困難であり,ユーザの音声のパラ言語情報が変換音声に直接的に反映されてしまう.また,通常の発話において,人間は自己聴取音の聴取との相互作用により自らの言語情報・パラ言語情報を制御するが,リアルタイム音声変換を用いた発話において,そのような相互作用をもたらす機構は存在しない.そこで本稿では,変換音声をユーザにリアルタイムにフィードバックする自己聴取音制御システムにより,変換音声に所望のキャラクタ性を付与するようユーザを発話変容させるシステムを提案する.実験的評価では,一人称視点(音声変換ユーザ視点)と三人称視点においてシステムおよび変換音声を評価し,(1) 演技経験の少ないユーザに対してシステムの有用性が高いこと,(2) F0 を目標キャラクタに近づけるだけで十分な発話変容効果がみられることを示す.
著者
土井 啓成 中村 圭吾 戸田 智基 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.18, pp.1-6, 2009-07-10
参考文献数
11

喉頭摘出者が行う発声法の一つに,食道等を用いて音源を生成し,発声を行う食道発声法がある.食道発声法は国内で広く使用されているが,生成された音声は健常者の音声と比較して不自然である.本稿では,食道発声音声の音質改善を目指し,食道発声音声から健常者音声への統計的声質変換を用いた音質改善法 (ES-to-Speech) を提案する.健常者音声のスペクトル特徴量や F₀,非周期成分といった音源特徴量は,それぞれ食道発声音声のスペクトル特徴量から独立に推定する.変換音声の客観評価実験及び,主観評価実験結果から,ES-to-Speech は,食道発声と同等の明瞭性を保ったまま,自然性を大きく改善できることを示す.また,F₀ 推定時に,入力特徴量として食道発声音声のスペクトルと F₀ の併用も試みることで,食道発声音声の F₀ 情報を用いる効果を検証する.This paper proposes a novel method of enhancing esophageal speech based on statistical voice conversion. Esophageal speech is one of the speaking methods for total laryngectomees to speak by generating sound excitations at their esophagus. Although esophageal speech is the major method in Japan, the generated voices sound unnatural. To improve naturalness of the esophageal speech, we propose a conversion method from esophageal speech to normal speech (ES-to-Speech) using a statistical voice conversion technique. Spectral features and excitation features, such as F₀ and aperiodic components, of the normal speech are independently estimated from the spectral features of the esophageal speech based on the maximum likelihood criterion. The effectiveness of ES-to-Speech is evaluated by conducting objective and subjective experiments to demonstrate that the proposed method yields significant improvements in naturalness of esophageal speech while keeping its intelligibility.
著者
宮部 滋樹 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.104, no.246, pp.19-24, 2004-08-12
被引用文献数
1

本稿では,制御点で出力音を相殺するマルチチャネル音場制御とマイクロホンアレーを併用した,新たな小規模バージインフリー音声対話インタフェースを提案する.従来手法は,無音信号を再現するマイクロホン素子位置以外に応答音の再現点を制御点として設けているため,ユーザの位置を拘束していた.しかし提案手法は応答音を厳密に再現する制御点を設けないため,ユーザの移動を許容する.更に,応答音再現の制御点を設けないことにより,従来法では安定に動作させることができない少数のラウドスピーカ数でも安定なシステムを設計できる.実験により,従来法では安定に動作しない少ないラウドスピーカ数でも安定な制御が行えるということを示す.
著者
石井 隼太 戸田 智基 猿渡 洋 Sakuriani Sakti 中村 哲
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.1, pp.1-8, 2011-10-21
被引用文献数
2

静粛な環境などの発声行為自体を躊躇する状況においても音声入力を可能とする技術として,微弱な体内伝導音声である非可聴つぶやき (Non-Audible Murmur: NAM) を用いた音声認識 (NAM 認識) が提案されている.NAM は多人に聴受されないほど小さなささやき声であり,体表に直接圧着させる NAM マイクロフォンによって収録される.その一方で,ユーザの動作によっては,NAM マイクロフォンの圧着環境が大きく変動するため,収録信号に雑音が混入する.本報告では,ユーザ動作に起因する雑音が NAM 認識に与える影響を調査し,2 つの NAM マイクロフォンで収録されるステレオ信号を用いた雑音抑圧法を提案する.また,実験的評価により,提案法の有効性を示す.Recently, speech recognition with Non-Audible Murmur (NAM) was proposed in order to enable to use speech interfaces in quiet environments where we hesitate to speech. NAM is a very soft wispered voice detected with NAM microphone, which is one of the body-conductive microphones. The detected NAM signal suffers from noise caused by speaker's movement because the setting condition of NAM microphone is changed. In this paper, we investigate the effect of the noise on NAM recognition and propose a blind noise suppression method using a stereo signal detected with two NAM microphones. Experimental evaluations are conducted to show the effictiveness of the proposed method.
著者
西村 竜一 内田 賢志 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.522, pp.93-98, 2001-12-13
被引用文献数
5

ASKA(アスカ)は, 大学の受付案内システムを目標として開発中の頭部や腕のジェスチャ機能を持つ人間型音声対話ロボットである.音声対話機能は, 大語彙連続音声認識エンジンJuliusと学内案内タスク向けN-gram言語モデルを基礎としたキーワード検索による音声認識理解部と音声合成部によって構成されており, 対人センサやジェスチャ生成などの他のモジュールと状態を通信しながら分散的な動作を行なう.本ロボットは, 奈良先端大における学内共同プロジェクトで開発されており, エージェントシステムにおける様々な要素技術の実環境での検証プラットフォームと位置付けられている.今後も新たな要素技術を採り入れながら開発を続ける予定である.本稿では, 音声対話機能の実装方法を中心に現在のASKAの概要および今後の予定について述べる.
著者
長友 健太郎 西村 竜一 小松 久美子 黒田 由香 李晃伸 猿渡 洋 鹿野 清宏
出版者
電子情報通信学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.9, pp.2884-2893, 2002-09-15
参考文献数
15
被引用文献数
23

高精度な言語モデルの融合手法として,相補的バックオフアルゴリズムに基づく融合アルゴリズムを提案するとともに,それを用いた言語モデルの融合ツールを構築した.N-gram言語モデルは,学習元のコーパスの話題や知識,語調や発話様式などの特徴を反映する.そのため,タスクごとの特徴を反映した複数の言語モデルを融合することで,より多様な入力に対処できるモデルを構築できる.この言語モデルの融合において,既存の融合手法では,モデルの持つ特性が損なわれるためタスクに対する特徴がぼやけてしまう.また,従来手法である学習元コーパスの単純な結合および再学習による融合を行うためには,学習元のコーパス自体が必要になる.これに対して,他方のモデルには現れない未観測N-gramの生起確率を他方のモデルから相互に推定する高精度な相補的バックオフアルゴリズムを提案する.さらに本手法を用いて,学習元コーパスが不要で利便性の高い言語モデル融合ツールを構築した.実際に医療相談,グルメ・レシピ検索および新聞記事の各タスクの言語モデルを融合し,それらを評価した結果,各モデルの特性をなるべく保存しながら,コーパス結合モデルと比較しても精度が劣化しないモデルを得ることができた.A new complemental back-off algorithm for merging two N-gram languagemodels is proposed. By merging several topic-dependent orstyle-dependent models, we can construct a general model that coverswider range of topics easily. However, a conventional method thatsimply concatenates the training corpora or interpolating eachprobabilities often levels off the task-dependent characteristics in each languagemodels, and weaken the linguistic constraint in total. We propose anew back-off scheme that assigns the unseen N-gram probabilitiesaccording to the probabilities of the another model. It can assignmore reliable probabilities to the unseen N-grams, and no originalcorpora is needed for the merging. We implemented a command tool thatrealizes this method, and evaluated it on three recognition tasks(medical consulting, food recipe query and newspaper article). The results reveal that our merged model can keep the same accuracy of each original one.
著者
三宅 純平 竹内 翔大 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.422, pp.1-6, 2009-01-22
被引用文献数
2

本論文では,ユーザの手動登録に依存しない流行語・新語などに対する自動読み付与の手法を提案する.音声認識の大きな課題として,未知語処理が挙げられる.特に,流行語・新語は正しい読みが得られず,未知語として扱われることが多い.近年,流行語などの読み訂正処理として,「はてな」のようなキーワードと読みがペアで登録されている集合知サイトを利用した読み付与による音声認識辞書の修正が提案されている.しかしながら,集合知サイトに基づく読み付与は,匿名ユーザの手動による登録に強く依存しているため,迅速な読みの登録やその読みの正しさが保証されないという問題がある.そこで,括弧表現に基づくWebテキストマイニングによる読みの自動抽出及び,その読みの信頼度計算を行なうことで,ユーザによる登録に非依存な自動読み付与の手法の提案を行なう.評価実験では,従来手法である「はてな」を用いた読み付与と提案手法との読み付与との性能比較を行い,提案手法は従来手法と同等またはそれ以上の性能を得ることができた.特に一般性が著しく改善された.
著者
コンヴェール マクシム 深山 覚 中野 倫靖 高道 慎之介 猿渡 洋 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2018-MUS-120, no.1, pp.1-8, 2018-08-14

ニューラルネットワークは自動和声付けにおいて有望な技術である.膨大なデータセットを元に,入力と出力の複雑な依存関係を学習することができるため,旋律と和音の依存関係も扱うことができる.ニューラルネットワークの性能はその入力と出力情報の表現方法が強く影響する.しかし,従来の自動和声付け研究では,出力情報である和音の表現方法について深くは検討されておらず,テンションノートといった和音の詳細な構造が最大限活用されてこなかった.和音の表現方法を変えることで,旋律と和音の関係を更に細かく学習できると考えられる.そこで本研究では,和音の表現方法の違いが Recurrent Neural Network (RNN) による自動和声付けの性能にどれほど影響するかを調査する.従来の表現方法を含む 4 つの異なる和音表現方法に基づいて Gated Recurrent Unit (GRU) を用いたニューラルネットワークを構築し,それらの性能を比較した.実験の結果,和音の構成音を陽に表現した表現方法を用いると,従来の和音ラベル形式を使った場合に近い性能に達成するだけでなく,構成音の細かな違いに対応できる多機能な自動和声付けモデルの構築を可能とすることがわかった.