著者
藤田 洋子 竹内 翔大 川波 弘道 松井 知子 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.3, pp.1-6, 2010-02-05

実環境で,音声認識を用いた音声情報案内システムを稼動させる場合には,雑音などの音声以外の入力やユーザ同士の背景会話などが混入されてくることがある.これらの入力はシステムの誤作動・誤認識を引き起こし,システムの応答性能を低下させる原因となる.そのため,システムへの入力として適当な入力 (有効入力) と不適当な入力 (無効入力) の識別を行い,無効入力を棄却することにより,無効入力に対する応答処理を行わないことが重要となる.一般的に有効入力と無効入力を識別には音響的特徴が用いられる.しかし,入力音の音声認識結果から得られる言語的な情報を使うことにより,無意味な認識結果が出力される雑音の識別に加え,システムのタスクの言語的な特徴を反映させた有効入力,無効入力を識別することが可能になると考えられる.そこで本稿では,Bag-of-Words (BOW) を特徴量とした Support Vector Machine (SVM) による無効入力の識別を検討した.実環境音声認識システム 「たけまるくん」 の入力データを用いた実験では,GMM に基づく無効入力の識別と比べ,分類誤り率を 23.30% から 15.90% に削減することができた.また,BOW に GMM から得られる音響尤度,発話時間や SNR を組み合わせた手法についても検討した.その結果,分類誤り率を 13.60% まで削減することができた.On a real environment speech-oriented information guidance system, a valid and invalid input discrimination process is important as invalid inputs such as noise, laugh, cough and meaningless utterances lead to unpredictable system responses. Generally, acoustic features such as MFCC are used for discrimination. Comparing acoustic likelihoods of GMMs (Gaussian Mixture Models) from speech data and noise data is one of the typical methods. In addition to that, using linguistic features, such as speech recognition result, is considered to improve discrimination accuracy as it reflects the task-domain of invalid inputs and meaningless recognition results from noise inputs. In this report, the authors propose to introduce Bag-of-Words (BOW) as a feature to discriminate between valid and invalid inputs. Support Vector Machine (SVM) is also employed to realize robust classification. Experiments using real environment data from the guidance system "Takemaru-kun" were conducted. By applying BOW and SVM, the classification error rate (CER) is reduced to 15.90% , from 23.30% when using GMMs. In addition, experiments using features combining BOW with acoustic likelihoods from GMMs, SNR and duration were conducted, improving the CER to 13.6% .
著者
岩見 洋平 戸田 智基 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.619, pp.11-16, 2003-01-24

音声における感情表現は韻律におおきく影響されるといわれており,これまで,韻律を制御するためのさまざまな分析と,その分析から得られる規則を用いた合成手法が報告されている.しかし,それらの報告において,韻律は感情表現において重要な要素であるが,韻律だけでなく声質も重要な要素であると指摘されている.そこで本報告では,感情音声の声質を制御する手法として, GMM (Gaussian Mixture Model)に基づく声質変換を用いた感情音声合成手法を提案する.この手法では読み上げ調に発話された音声の声質を,感情音声のそれに変換する.本研究でははじめに,怒り,悲しみ,喜び,読み上げ調(平静)の音声データを収録した.そして,その音声を用いて感情音声への声質変換を行い,客観評価実験及び主観評価実験を行った.その結果,声質変換のみでは感情表現は不十分であるが,適切な韻律が与えられた場合,声質変換を行うことにより,感情の表現力が向上することが分かった.本報告では,感情音声データベースの作成と,その音声から作成した感情間の声質変換音声の評価について報告する.
著者
三宅 純平 竹内 翔大 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.422, pp.1-6, 2009-01-22
被引用文献数
2

本論文では,ユーザの手動登録に依存しない流行語・新語などに対する自動読み付与の手法を提案する.音声認識の大きな課題として,未知語処理が挙げられる.特に,流行語・新語は正しい読みが得られず,未知語として扱われることが多い.近年,流行語などの読み訂正処理として,「はてな」のようなキーワードと読みがペアで登録されている集合知サイトを利用した読み付与による音声認識辞書の修正が提案されている.しかしながら,集合知サイトに基づく読み付与は,匿名ユーザの手動による登録に強く依存しているため,迅速な読みの登録やその読みの正しさが保証されないという問題がある.そこで,括弧表現に基づくWebテキストマイニングによる読みの自動抽出及び,その読みの信頼度計算を行なうことで,ユーザによる登録に非依存な自動読み付与の手法の提案を行なう.評価実験では,従来手法である「はてな」を用いた読み付与と提案手法との読み付与との性能比較を行い,提案手法は従来手法と同等またはそれ以上の性能を得ることができた.特に一般性が著しく改善された.
著者
久保 慶伍 川波 弘道 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告 音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2011, no.16, pp.1-6, 2011-01-28

未知語に対する自動読み付与の重要性は高く,音声認識,音声合成,検索クエリの予測変換などの技術において性能の改善が期待される.未知語に対する自動読み付与においては,文字などの小さい単位で表記と読みをアライメントした辞書データが必要となる.しかし,データを人手で構築するとコストが掛かるため,表記と読みの自動アライメントが研究されている.しかし,従来の研究で提案された手法では,大きい単位でのアライメントほど1以下の値の乗算回数が少なくなるため,大きい単位のアライメントが有利になり,小さい単位でのアライメントが困難であった.大きい単位でアライメントが行われると未知語の読み付与に対する頑健性を失われる.本報告では,学習時に各アライメントの乗算回数を表記と読みの全体の文字数にすることで,最も小さい単位で表記と読みをアライメントする手法を提案する.そして,提案手法により自動読み付与のための学習データを構築し,未知語に対する自動読み付与による評価を行った.評価の結果,提案手法が従来手法よりも最大で約43.6%読み付与正解率を改善した.この結果から,提案法は未知語に対する自動読み付与において有効であることが実証された.Previously, a variety of automatic reading annotation to an unknown word has been researched, as improvement of the performance is expected in speech recognition, speech synthesis and predictive transform of a retrieval query, etc. Automatic reading annotation to an unknown word needs a dictionary which includes relation between a graphem and reading on a small unit. However, it is difficult to construct manually such a dictionary due to the cost. This research addresses to obtain relation of a graphem and reading on a small unit from a conventional word dictionary etc. automatically, and an unsupervised alignment method that uses the EM algorithm is employed. In the conventional alignment method, because the multiplication frequency decreases in the alignment by the large unit, a large unit tends to be used for alignment. In this report, we proposed a novel method that specify an alignment by the smallest unit by making the multiplication frequency of each alignment the number of characters of the grapheme and reading in training. We evaluated the proposed method on accuracy of automatic reading annotation to the unknown word. Result of evaluation show the proposed method improves the reading annotation correct about 43.6% higher than the conventional method.
著者
鹿野 清宏 Cincarek Tobias 川波 弘道 西村 竜一 李晃伸
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2006, no.107(2006-SLP-063), pp.33-38, 2006-10-20

筆者らは生駒市北コミュニティセンターに、音声情報案内システム「たけまるくん」を設置して、2002年11月から4年間運用している。最初の1年半あまり、精力的にシステムの改良を行い、現在では、子供を中心とする多くの市民に利用されている。このシステムは、大語彙連続音声認識プログラムJulius を用いた4万語あまりの大語彙の連続発声認識を中心に構築された本格的な自由発話による音声情報案内システムである。また、入力された音声や雑音はすべて収録され、とくに最初の2年間は書き起こしが終了している。この2年間の書き起こしデータを用いることによるシステムの性能の向上の予備評価についても報告する。このたけまるくんの成果を活かして、今年の3月末に、奈良先端大の近くの近鉄の駅「学研北生駒」に、独立した2つの音声情報案内システム「キタちゃん」と「キタロボ」を設置した。駅は60dBAと、コミュニティセンターに比べて、騒音レベルが10dB程度高く、厳しい音声認識の利用条件である。「キタちゃん」は、たけまるくんと同様にCGエージェントが応答する型で、タッチパネルも併用できる大人向けのシステムである。「キタロボ」は、ロボット型インタフェースで、どちらかというと子供向きのシステムである。この両システムの運用も6ヶ月間になるが、良好に動作している。たけまるくんからこの両システムへのポータビリィティについても述べる。
著者
鹿野 清宏 Cincarek Tobias 川波 弘道 西村 竜一 李晃伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.107, pp.33-38, 2006-10-20
被引用文献数
9

筆者らは生駒市北コミュニティセンターに、音声情報案内システム「たけまるくん」を設置して、2002年11月から4年間運用している。最初の1年半あまり、精力的にシステムの改良を行い、現在では、子供を中心とする多くの市民に利用されている。このシステムは、大語彙連続音声認識プログラムJulius を用いた4万語あまりの大語彙の連続発声認識を中心に構築された本格的な自由発話による音声情報案内システムである。また、入力された音声や雑音はすべて収録され、とくに最初の2年間は書き起こしが終了している。この2年間の書き起こしデータを用いることによるシステムの性能の向上の予備評価についても報告する。このたけまるくんの成果を活かして、今年の3月末に、奈良先端大の近くの近鉄の駅「学研北生駒」に、独立した2つの音声情報案内システム「キタちゃん」と「キタロボ」を設置した。駅は60dBAと、コミュニティセンターに比べて、騒音レベルが10dB程度高く、厳しい音声認識の利用条件である。「キタちゃん」は、たけまるくんと同様にCGエージェントが応答する型で、タッチパネルも併用できる大人向けのシステムである。「キタロボ」は、ロボット型インタフェースで、どちらかというと子供向きのシステムである。この両システムの運用も6ヶ月間になるが、良好に動作している。たけまるくんからこの両システムへのポータビリィティについても述べる。We have been developing and operating "Takemaru-kun" spoken information guidance system in North Community Center in Ikoma city these four years. Takemaru-kun, which is composed of large vocabulary continuous speech recognition program Julius and Q-A database, is now widely used by Ikoma citizens, mainly children. All inputs have been recorded and the first two-year data are annotated. Takemaru-kun system improvement based on two year annotated data is also reported. Takemaru-kun was successfully ported to two spoken information guidance systems in Gakken North Ikoma railway station in the end of this March. These two systems are CG agent type "Kita-chan" , and robot type "Kita-robo". The portability of acoustic models from Takemaru-kun to Kita-robo is also discussed.
著者
岡本 英樹 小島 摩里子 松井 知子 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.79-84, 2007-07-19

本稿では非可聴つぶやき(Non-Audible Murmur:NAM)を用いた話者照合法について,新たに収集したデータを用いて分析した結果を報告する.NAMとは,外部の騒音に対して頑健な体表接着型マイクロフォンを用いて収録したつぶやき音声を指す.これまでNAMの発声内容が他人に漏れ聞こえることがないという利点を活かし,NAMによるキーワードを利用したテキスト依存型話者照合法を提案してきた.今回は,新たに男性18名,女性9名のNAMを収録し,それらを詐称者セットとして用いて実験を行い,その性能を詳しく調べた.また,学習に使用する発声数,時期数をいろいろと変えて実験することにより,複数時期にわたって収録された音声を使用することの有効性を示す.また,話者照合システムを利用するユーザにとって登録時に必要となる発声数が少ないほど負担は軽減する.そのため,学習データに使用する発声数を減らして実験を行い,その性能の劣化の度合いを調べることにより,どのくらいの音声データが登録時に必要となるかを明らかにする.
著者
猿渡 洋 鹿野 清宏 戸田 智基 川波 弘道 小野 順貴 宮部 滋樹 牧野 昭二 小山 翔一
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

本研究では、高次統計量追跡による自律カスタムメイド音声コミュニケーション拡張システムに関して研究を行った。具体的なシステムとして、ブラインド音源分離に基づく両耳補聴システムや声質変換に基づく発声補助システムを開発し、以下の成果が得られた。(1)両耳補聴システムに関しては、高精度かつ高速なブラインド音源分離及び統計的音声強調アルゴリズムを提案し、聴覚印象の不動点を活用した高品質な音声強調システムが実現できた。(2)発声補助システムに関しては、データベース間における発話のミスマッチを許容する声質変換処理を開発した。実環境模擬データベースを用いてその評価を行い、有効性を確認することが出来た。
著者
鹿野 清宏 川波 弘道 李 晃伸 猿渡 洋 陸 金林 中村 哲
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(C)
巻号頁・発行日
1998

話者適応、環境雑音適応、タスク向き話し言葉言語モデル構築の研究が大いに進展し、当初の目的を十分に達成した。以下、簡単に項目ごとにまとめる。1 教師なし話者適応アルゴリズムの考案と評価話者選択と十分統計量に基づく教師なし話者適応アルゴリズムを考案した。発声者が任意の1文を発声するだけで、その発声者に近い話者のHMM十分統計量から発声者に適応した高精度な音韻モデルが構築できた。2 教師なし環境雑音適応アルゴリズムの考案と評価十分統計量を用いた教師なし話者適応アルゴリズムを、環境雑音適応と同時に実行できるアルゴリズムに拡張した。さらに、スペクトルサブトラクション法の導入により、話者・環境同時適応の性能を向上させた。3 タスク向き話し言葉言語モデルと音声対話システムの構築Webの検索エンジンと、言語識別として文字トライグラムを用いたコーパス自動収集システムを構築して、言語モデルの自動作成アルゴリズムを開発した。さらに、受付案内ロボットによる音声認識応答による学内案内システムを構築して、開発してきたアルゴリズムの実環境下における有効性の確認およびデータ収集を開始した。4 開発アルゴリズムの普及開発してきた話者適応、環境適応、タスクアルゴリズムを、研究代表者が代表をつとめている情報処理学会の「連続音声認識コンソーシアム」を通して、企業、大学への普及の努力を行ってきた。本科学研究補助金の関連発表は、平成10年から13年までで、学術論文15件、著書1件、解説3件、国際会議19件、研究会22件、大会講演33件である。
著者
鹿野 清宏 猿渡 洋 川波 弘道
出版者
奈良先端科学技術大学院大学
雑誌
萌芽研究
巻号頁・発行日
2005

H17年度に収録した28人からなり、異なる4時期で発声した非可聴つぶやき声(NAM)個人認証データベースをもとにNAMによる話者認証の研究を進めた。さらに、27人の詐称者のNAMを収録して、NAM個人認証データベースを完成するとともに評価を行った。NAMにより個人認証の研究で、研究を担当した小島麻里子(M2)が、暗号と情報セキュリティシンポジウムSCIS2006論文賞を受賞した。(1)Hl7年度に収録した28名のN削個人認証データベースに加えて、27名の詐称者のN削個人認証データベースの収録し、NAM個人認証データベースを完成した。異なる時期の登録データを利用することが大いに有効であることが分かった。(2)NAM音声データベースを用いて、NAM個人認証アルゴリズムの研究および認証能力の評価を引き続き行う。とくに、発声者の登録の負担を減らすことを目指して、1時期あたりの発声数を減らす効果を調べ、1時期あたり2発声程度まで個人認証率が保たれることを確認した。(3)セグメント情報とSVM(サポートベクターマシン)を用いた個人認証アルゴリズムが、NAM音声の認証において、従来のGMM(ガウス混合分布モデル)などよりも飛躍的に高い個人認証能力を持つことが確かめられた。(4)他人がパスワードを発声した場合のNAMの認証能力、本人がパスワードを忘れた場合の拒絶能力を個人認証実験で調べた。個人のNAMマイクによる体内音も収録して、個人認証実験を行ったが、有効な結果は得られなかった。
著者
竹内 翔大 ツィンツァレク トビアス 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.295-300, 2007-12-21
被引用文献数
2

実環境で頑健に動作する音声対話システムには多彩な発話表現を柔軟に処理できる対話制御技術が必要となる.多彩な発話表現に対して頑健な応答生成手法として,用例ベースの応答生成が研究されている.この手法では質問応答データベース (QADB) を用いて入力音声の認識結果に最も近い質問例を選択し,入力に対して最も適切な応答を生成する.これまで,QADB は発話データの書き起こし文を用いて作成されていた.本稿では,音声認識結果を用いた QADB (認識結果 QADB) による応答生成とその最適化を提案する.この手法により,入力に含まれる音声認識誤りに頑健な用例選択が行える.システム応答の適切さを応答正解率で評価した結果,6候補程度の認識結果を用いて QADB を作成し,最適化を行うことで,従来と同等以上の応答正解率が得られた.A speech-oriented dialog system employed in real-environment requires dialog control techniques which enable flexible processing of various utterance expressions. As a robust response generation method for various utterance expressions, an example-based response generation method has been studied. This method employs a question and answer database (QADB) to generate the most appropriate response by selecting an example question which is nearest to an input. Conventionally, a QADB is constructed from transcriptions of utterance data. In this paper, we propose response generation based on a question and answer database using automated speech recognition results (ASR-QADB), which enables to perform robust selection of examples against recognition errors. Evaluating the performance of system responses by response accuracy, the same response accuracy as with the conventional method is achieved by constructing and optimizing ASR-QADB using 6-best recognition results.