著者
関本 英彦 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.221, pp.37-42, 2006-08-23
被引用文献数
4

携帯電話が普及するにつれて,「いつでも」「どこでも」コミュニケーションができるようになった.携帯電話を使うことがとても便利である反面,外部雑音の影響により,正しい内容を受聴できない問題がある.例えば,人ごみの中といった騒音による影響のため,小声でプライベートな会話ができない.本稿では,外部雑音に頑健な非可聴つぶやき(Non-Audible Murmur: NAM)マイクを用いた小声(Small Body Transmitted Ordinary Speech: SBTOS)によるコミュニケーションを考える.NAMマイクで収録された音声(肉伝導音声)は外部雑音に頑健である反面,こもった音声になり,聞き取りが困難である.そのため,混合正規分布モデル(Gaussian Mixture Model: GMM)を用いた声質変換技術により音質改善を行う.その際に,SBTOSから通常音声へと変換(SBTOS-to-SP),また小声へと変換(SBTOS-to-SSP)を検討する.入出力間における有声無声の一致率を調べたところ,SBTOS-to-SSPはSBTOS-to-SPよりも一致していることがわかった.客観,及び主観評価実験の結果,SBTOS-to-SSPはSBTOS-to-SPより優れていることがわかった.
著者
久保 慶伍 川波 弘道 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告 音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2011, no.16, pp.1-6, 2011-01-28

未知語に対する自動読み付与の重要性は高く,音声認識,音声合成,検索クエリの予測変換などの技術において性能の改善が期待される.未知語に対する自動読み付与においては,文字などの小さい単位で表記と読みをアライメントした辞書データが必要となる.しかし,データを人手で構築するとコストが掛かるため,表記と読みの自動アライメントが研究されている.しかし,従来の研究で提案された手法では,大きい単位でのアライメントほど1以下の値の乗算回数が少なくなるため,大きい単位のアライメントが有利になり,小さい単位でのアライメントが困難であった.大きい単位でアライメントが行われると未知語の読み付与に対する頑健性を失われる.本報告では,学習時に各アライメントの乗算回数を表記と読みの全体の文字数にすることで,最も小さい単位で表記と読みをアライメントする手法を提案する.そして,提案手法により自動読み付与のための学習データを構築し,未知語に対する自動読み付与による評価を行った.評価の結果,提案手法が従来手法よりも最大で約43.6%読み付与正解率を改善した.この結果から,提案法は未知語に対する自動読み付与において有効であることが実証された.Previously, a variety of automatic reading annotation to an unknown word has been researched, as improvement of the performance is expected in speech recognition, speech synthesis and predictive transform of a retrieval query, etc. Automatic reading annotation to an unknown word needs a dictionary which includes relation between a graphem and reading on a small unit. However, it is difficult to construct manually such a dictionary due to the cost. This research addresses to obtain relation of a graphem and reading on a small unit from a conventional word dictionary etc. automatically, and an unsupervised alignment method that uses the EM algorithm is employed. In the conventional alignment method, because the multiplication frequency decreases in the alignment by the large unit, a large unit tends to be used for alignment. In this report, we proposed a novel method that specify an alignment by the smallest unit by making the multiplication frequency of each alignment the number of characters of the grapheme and reading in training. We evaluated the proposed method on accuracy of automatic reading annotation to the unknown word. Result of evaluation show the proposed method improves the reading annotation correct about 43.6% higher than the conventional method.
著者
岡本 英樹 小島 摩里子 松井 知子 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.79-84, 2007-07-19

本稿では非可聴つぶやき(Non-Audible Murmur:NAM)を用いた話者照合法について,新たに収集したデータを用いて分析した結果を報告する.NAMとは,外部の騒音に対して頑健な体表接着型マイクロフォンを用いて収録したつぶやき音声を指す.これまでNAMの発声内容が他人に漏れ聞こえることがないという利点を活かし,NAMによるキーワードを利用したテキスト依存型話者照合法を提案してきた.今回は,新たに男性18名,女性9名のNAMを収録し,それらを詐称者セットとして用いて実験を行い,その性能を詳しく調べた.また,学習に使用する発声数,時期数をいろいろと変えて実験することにより,複数時期にわたって収録された音声を使用することの有効性を示す.また,話者照合システムを利用するユーザにとって登録時に必要となる発声数が少ないほど負担は軽減する.そのため,学習データに使用する発声数を減らして実験を行い,その性能の劣化の度合いを調べることにより,どのくらいの音声データが登録時に必要となるかを明らかにする.
著者
中村 敬介 西村 竜一 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.632, pp.13-18, 2004-01-22
被引用文献数
9 1

実環境における音声インタフェースでは笑い声や咳などのユーザが意図しない入力や周囲の雑音による誤入力,あるいは笑い声などの通常の発話と区別すべき入力が多く存在する.本研究では,音声/雑音,および通常発話/不要音を識別する頑健な音声対話システムを目指し,そのためのGaussian Mixture Model(GMM)を用いた環境雑音および不要発話の識別法およびその効果について報告する.生駒市北コミュニティセンターの公共音声情報案内システム「たけまるくん」におけるフィールドテストで収集したユーザ発話を複数のクラスに分類し,それぞれの音響的特徴をGMMに学習させて音声識別実験を行ったところ,各クラスごとでの識別率は128混合GMMで平均80.6%,音声/非音声の識別率は96.3%を達成し,GMMによる識別が可能であることが確認できた.音声/非音声の識別においても,2クラスのGMMよりも雑音の種別ごとにGMMを用いるほうが高い識別性能を示した.また,Cepstral Mean Subtraction(CMS)を行わないことで,クラスごとの識別性能を平均3.2%向上できることを確認した.
著者
上村 益永 高橋 祐 猿渡 洋 鹿野 清宏 近藤 多伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.108, no.143, pp.43-48, 2008-07-11

本稿では,スペクトル減算処理過程で生じるミュージカルノイズ量の計量尺度を提案する.スペクトル減算法はミュージカルノイズと呼ばれる人工的で耳障りな歪みを生じ,音質の劣化が著しいという問題を抱えている.そのため数多くのミュージカルノイズ対策手法が提案されているが,ミュージカルノイズの評価尺度が存在しないために,その効果を定量的に議論することができない.我々は,スペクトル減算処理によるミュージカルノイズ発生量が処理強度と原信号の確率密度関数の形状に関係深いことを発見した.この関係に着目し,高次統計量を利用することで確率密度関数の形状を考慮できるミュージカルノイズ発生量の計量尺度を提案する.最後に,主観評価実験により提案尺度とミュージカルノイズが高い相関を持つことを示す.
著者
猿渡 洋 鹿野 清宏 戸田 智基 川波 弘道 小野 順貴 宮部 滋樹 牧野 昭二 小山 翔一
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

本研究では、高次統計量追跡による自律カスタムメイド音声コミュニケーション拡張システムに関して研究を行った。具体的なシステムとして、ブラインド音源分離に基づく両耳補聴システムや声質変換に基づく発声補助システムを開発し、以下の成果が得られた。(1)両耳補聴システムに関しては、高精度かつ高速なブラインド音源分離及び統計的音声強調アルゴリズムを提案し、聴覚印象の不動点を活用した高品質な音声強調システムが実現できた。(2)発声補助システムに関しては、データベース間における発話のミスマッチを許容する声質変換処理を開発した。実環境模擬データベースを用いてその評価を行い、有効性を確認することが出来た。
著者
鹿野 清宏 川波 弘道 李 晃伸 猿渡 洋 陸 金林 中村 哲
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(C)
巻号頁・発行日
1998

話者適応、環境雑音適応、タスク向き話し言葉言語モデル構築の研究が大いに進展し、当初の目的を十分に達成した。以下、簡単に項目ごとにまとめる。1 教師なし話者適応アルゴリズムの考案と評価話者選択と十分統計量に基づく教師なし話者適応アルゴリズムを考案した。発声者が任意の1文を発声するだけで、その発声者に近い話者のHMM十分統計量から発声者に適応した高精度な音韻モデルが構築できた。2 教師なし環境雑音適応アルゴリズムの考案と評価十分統計量を用いた教師なし話者適応アルゴリズムを、環境雑音適応と同時に実行できるアルゴリズムに拡張した。さらに、スペクトルサブトラクション法の導入により、話者・環境同時適応の性能を向上させた。3 タスク向き話し言葉言語モデルと音声対話システムの構築Webの検索エンジンと、言語識別として文字トライグラムを用いたコーパス自動収集システムを構築して、言語モデルの自動作成アルゴリズムを開発した。さらに、受付案内ロボットによる音声認識応答による学内案内システムを構築して、開発してきたアルゴリズムの実環境下における有効性の確認およびデータ収集を開始した。4 開発アルゴリズムの普及開発してきた話者適応、環境適応、タスクアルゴリズムを、研究代表者が代表をつとめている情報処理学会の「連続音声認識コンソーシアム」を通して、企業、大学への普及の努力を行ってきた。本科学研究補助金の関連発表は、平成10年から13年までで、学術論文15件、著書1件、解説3件、国際会議19件、研究会22件、大会講演33件である。
著者
中村 圭吾 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. WIT, 福祉情報工学 (ISSN:09135685)
巻号頁・発行日
vol.109, no.260, pp.49-54, 2009-10-22
参考文献数
21

本稿では,喉頭摘出者が外部機器を用いた電気音声に対して,統計的声質変換を適用した実験的評価を報告する.用いる外部機器として,1)周囲の者に聴取されないほど微弱な信号を出力する音源,2)従来のモノトーンピッチを出力する電気式人工喉頭,及び3)ユーザが気管孔から出力する呼気圧でF_0を制御する呼気センサーを用いた電気式人工喉頭の3種類を用いる.発声された電気音声は,ヘッドセットマイクロフォンまたはNon-audible murmurマイクロフォンで収録され,ささやき声または通常音声のいずれかに変換される.実験的評価の結果,1)呼気センサーの使用はF_0推定の精度を改善するのに有効である,2)入力F_0を用いる効果は薄いが,声質変換性能は特に劣化しない,3)全ての変換の枠組みおいて自然性が大きく改善し,変換音声は元の電気音声と比べてより好ましいことを確認する.
著者
西村 竜一 西原 洋平 鶴身玲典 李晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.35-40, 2003-02-07
被引用文献数
6

生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムでは,大語彙連続音声認識を利用した一問一答形式の音声対話により,同センターや生駒市に関する案内を行うことが可能である.実用化を目指した本システムは,2002年11月6日からセンター内に常設され,開館時は誰でも自由に愛嬌のあるエージェントとのコミュニケーションを楽しむことができる.また,システムの改良に必要な対話記録を実際の運用を通じて収集し,発話内容の書き起こし等のデータの整備もすすめている.本稿では,主に本システムの構成および発話音声データ収集の状況について報告する.また,成人による比較的クリーンな発話をテストセットにした本システムの評価実験を行い,84%の単語正解率と70%の応答正解率を確認した.We implemented a practical speech guidance system for public use. It is called ``Takemaru-kun'', and located daily at the entrance hall of Ikoma Community Center to inform visitors about the center and around Ikoma city via speech human-machine interface and funny animating agent of Takemaru. This system aims to promote a field test for robust speech recognition in practical environment, and to collect actual utterance data in the framework of human-machine speech dialogue. The system has been running everyday since November 6, and a large number of user utterances have been collected. Classification and transcription of the data is also undertaken. This paper reports the outline of this system and current status of the data collection. In a recognition experiment with extracted samples of adult voices, word accuracy of 84% and answer rate of 70% was obtained.
著者
鹿野 清宏 猿渡 洋 川波 弘道
出版者
奈良先端科学技術大学院大学
雑誌
萌芽研究
巻号頁・発行日
2005

H17年度に収録した28人からなり、異なる4時期で発声した非可聴つぶやき声(NAM)個人認証データベースをもとにNAMによる話者認証の研究を進めた。さらに、27人の詐称者のNAMを収録して、NAM個人認証データベースを完成するとともに評価を行った。NAMにより個人認証の研究で、研究を担当した小島麻里子(M2)が、暗号と情報セキュリティシンポジウムSCIS2006論文賞を受賞した。(1)Hl7年度に収録した28名のN削個人認証データベースに加えて、27名の詐称者のN削個人認証データベースの収録し、NAM個人認証データベースを完成した。異なる時期の登録データを利用することが大いに有効であることが分かった。(2)NAM音声データベースを用いて、NAM個人認証アルゴリズムの研究および認証能力の評価を引き続き行う。とくに、発声者の登録の負担を減らすことを目指して、1時期あたりの発声数を減らす効果を調べ、1時期あたり2発声程度まで個人認証率が保たれることを確認した。(3)セグメント情報とSVM(サポートベクターマシン)を用いた個人認証アルゴリズムが、NAM音声の認証において、従来のGMM(ガウス混合分布モデル)などよりも飛躍的に高い個人認証能力を持つことが確かめられた。(4)他人がパスワードを発声した場合のNAMの認証能力、本人がパスワードを忘れた場合の拒絶能力を個人認証実験で調べた。個人のNAMマイクによる体内音も収録して、個人認証実験を行ったが、有効な結果は得られなかった。
著者
竹内 翔大 ツィンツァレク トビアス 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.295-300, 2007-12-21
被引用文献数
2

実環境で頑健に動作する音声対話システムには多彩な発話表現を柔軟に処理できる対話制御技術が必要となる.多彩な発話表現に対して頑健な応答生成手法として,用例ベースの応答生成が研究されている.この手法では質問応答データベース (QADB) を用いて入力音声の認識結果に最も近い質問例を選択し,入力に対して最も適切な応答を生成する.これまで,QADB は発話データの書き起こし文を用いて作成されていた.本稿では,音声認識結果を用いた QADB (認識結果 QADB) による応答生成とその最適化を提案する.この手法により,入力に含まれる音声認識誤りに頑健な用例選択が行える.システム応答の適切さを応答正解率で評価した結果,6候補程度の認識結果を用いて QADB を作成し,最適化を行うことで,従来と同等以上の応答正解率が得られた.A speech-oriented dialog system employed in real-environment requires dialog control techniques which enable flexible processing of various utterance expressions. As a robust response generation method for various utterance expressions, an example-based response generation method has been studied. This method employs a question and answer database (QADB) to generate the most appropriate response by selecting an example question which is nearest to an input. Conventionally, a QADB is constructed from transcriptions of utterance data. In this paper, we propose response generation based on a question and answer database using automated speech recognition results (ASR-QADB), which enables to perform robust selection of examples against recognition errors. Evaluating the performance of system responses by response accuracy, the same response accuracy as with the conventional method is achieved by constructing and optimizing ASR-QADB using 6-best recognition results.