著者
中島 淑貴 柏岡 秀紀 キャンベル ニック 鹿野 清宏
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:09151923)
巻号頁・発行日
vol.J87-D2, no.9, pp.1757-1764, 2004-09-01

「非可聴つぶやき認識」という,新しいスタイルの実用的な入力インタフェースを提案する.これは音声認識の雑音に対する脆弱性,情報の周囲への漏えい性を克服するため,声帯の振動を伴う通常音声の空気伝搬ではなく,「非可聴つぶやき(Non-Audible Murmur: NAM)」,つまり第三者に聴取不能な声帯の振動を伴わない調音呼気音の体内伝導を,体表からサンプリングし,HMMを用いて認識するものである.これを実現するための基礎として,第一に医療用膜型聴診器の原理を応用した体表接着型マイクロホンを開発した.第二として体内を伝導するNAMを採取して認識するために最適な接着位置を発見した.第三としてNAMの音響学的性質を検討した.第四として,この部位から採取されたサンプルを用い,HMM音響モデルに追加学習してNAM音響モデルを作成した.これらをもとに,日本語ディクテーション基本ソフトウェアを評価に用い,認識エンジンJuliusを使用して大語い連続認識実験を行い,NAM認識の実用可能性を検討した.
著者
坂野 秀樹 陸 金林 中村 哲 鹿野 清宏 河原 英紀
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌. D-2, 情報・システム 2-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2276-2282, 2000-11-25
参考文献数
8
被引用文献数
5

音声の位相情報を群遅延に基づいて表現することにより, 位相特性の制御を可能とする声質制御方式を提案する.提案方式は, 位相特性を群遅延領域で制御するため, 原音声の位相から零位相まで連続的に変化させることができる.また, 音声の特徴に基づき部分的に零位相化を行っているため, PSOLA法などの手法で見られる, ピッチ変換率を大きくしたときの劣化を軽減させることができる.ピッチ変換音声を作成して主観評価実験を行った結果, ピッチ変換率が1倍の場合に, 零位相合成, PSOLA法, 提案法のMOS値が, 男声の場合はそれぞれ3.6, 4.3, 4.3, 女声の場合はそれぞれ, 3.8, 4.2, 4.3であった.ピッチ変換率が3倍の場合には, それぞれの方式のMOS値が, 男声の場合に2.8, 2.4, 2.7, 女声の場合に1.6, 1.4, 1.7となった.これらの結果から, 提案方式は, ピッチ変換率が小さい場合には, PSOLA法に匹敵する高品質な音声が合成でき, ピッチ変換率を大きくした場合には, PSOLA法特有の劣化を減少させることができることがわかった.また, 本論文では, ピッチ変換を行った際にどのように位相特性を変化させるのが適当であるかについても検討し, ピッチを上昇させた際に位相特性を零位相に近づけると, 劣化が若干抑えられることがわかった.
著者
関本 英彦 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.221, pp.37-42, 2006-08-23
被引用文献数
4

携帯電話が普及するにつれて,「いつでも」「どこでも」コミュニケーションができるようになった.携帯電話を使うことがとても便利である反面,外部雑音の影響により,正しい内容を受聴できない問題がある.例えば,人ごみの中といった騒音による影響のため,小声でプライベートな会話ができない.本稿では,外部雑音に頑健な非可聴つぶやき(Non-Audible Murmur: NAM)マイクを用いた小声(Small Body Transmitted Ordinary Speech: SBTOS)によるコミュニケーションを考える.NAMマイクで収録された音声(肉伝導音声)は外部雑音に頑健である反面,こもった音声になり,聞き取りが困難である.そのため,混合正規分布モデル(Gaussian Mixture Model: GMM)を用いた声質変換技術により音質改善を行う.その際に,SBTOSから通常音声へと変換(SBTOS-to-SP),また小声へと変換(SBTOS-to-SSP)を検討する.入出力間における有声無声の一致率を調べたところ,SBTOS-to-SSPはSBTOS-to-SPよりも一致していることがわかった.客観,及び主観評価実験の結果,SBTOS-to-SSPはSBTOS-to-SPより優れていることがわかった.
著者
久保 慶伍 川波 弘道 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告 音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2011, no.16, pp.1-6, 2011-01-28

未知語に対する自動読み付与の重要性は高く,音声認識,音声合成,検索クエリの予測変換などの技術において性能の改善が期待される.未知語に対する自動読み付与においては,文字などの小さい単位で表記と読みをアライメントした辞書データが必要となる.しかし,データを人手で構築するとコストが掛かるため,表記と読みの自動アライメントが研究されている.しかし,従来の研究で提案された手法では,大きい単位でのアライメントほど1以下の値の乗算回数が少なくなるため,大きい単位のアライメントが有利になり,小さい単位でのアライメントが困難であった.大きい単位でアライメントが行われると未知語の読み付与に対する頑健性を失われる.本報告では,学習時に各アライメントの乗算回数を表記と読みの全体の文字数にすることで,最も小さい単位で表記と読みをアライメントする手法を提案する.そして,提案手法により自動読み付与のための学習データを構築し,未知語に対する自動読み付与による評価を行った.評価の結果,提案手法が従来手法よりも最大で約43.6%読み付与正解率を改善した.この結果から,提案法は未知語に対する自動読み付与において有効であることが実証された.Previously, a variety of automatic reading annotation to an unknown word has been researched, as improvement of the performance is expected in speech recognition, speech synthesis and predictive transform of a retrieval query, etc. Automatic reading annotation to an unknown word needs a dictionary which includes relation between a graphem and reading on a small unit. However, it is difficult to construct manually such a dictionary due to the cost. This research addresses to obtain relation of a graphem and reading on a small unit from a conventional word dictionary etc. automatically, and an unsupervised alignment method that uses the EM algorithm is employed. In the conventional alignment method, because the multiplication frequency decreases in the alignment by the large unit, a large unit tends to be used for alignment. In this report, we proposed a novel method that specify an alignment by the smallest unit by making the multiplication frequency of each alignment the number of characters of the grapheme and reading in training. We evaluated the proposed method on accuracy of automatic reading annotation to the unknown word. Result of evaluation show the proposed method improves the reading annotation correct about 43.6% higher than the conventional method.
著者
鹿野 清宏 Cincarek Tobias 川波 弘道 西村 竜一 李晃伸
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2006, no.107(2006-SLP-063), pp.33-38, 2006-10-20

筆者らは生駒市北コミュニティセンターに、音声情報案内システム「たけまるくん」を設置して、2002年11月から4年間運用している。最初の1年半あまり、精力的にシステムの改良を行い、現在では、子供を中心とする多くの市民に利用されている。このシステムは、大語彙連続音声認識プログラムJulius を用いた4万語あまりの大語彙の連続発声認識を中心に構築された本格的な自由発話による音声情報案内システムである。また、入力された音声や雑音はすべて収録され、とくに最初の2年間は書き起こしが終了している。この2年間の書き起こしデータを用いることによるシステムの性能の向上の予備評価についても報告する。このたけまるくんの成果を活かして、今年の3月末に、奈良先端大の近くの近鉄の駅「学研北生駒」に、独立した2つの音声情報案内システム「キタちゃん」と「キタロボ」を設置した。駅は60dBAと、コミュニティセンターに比べて、騒音レベルが10dB程度高く、厳しい音声認識の利用条件である。「キタちゃん」は、たけまるくんと同様にCGエージェントが応答する型で、タッチパネルも併用できる大人向けのシステムである。「キタロボ」は、ロボット型インタフェースで、どちらかというと子供向きのシステムである。この両システムの運用も6ヶ月間になるが、良好に動作している。たけまるくんからこの両システムへのポータビリィティについても述べる。
著者
鹿野 清宏 Cincarek Tobias 川波 弘道 西村 竜一 李晃伸
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.107, pp.33-38, 2006-10-20
被引用文献数
9

筆者らは生駒市北コミュニティセンターに、音声情報案内システム「たけまるくん」を設置して、2002年11月から4年間運用している。最初の1年半あまり、精力的にシステムの改良を行い、現在では、子供を中心とする多くの市民に利用されている。このシステムは、大語彙連続音声認識プログラムJulius を用いた4万語あまりの大語彙の連続発声認識を中心に構築された本格的な自由発話による音声情報案内システムである。また、入力された音声や雑音はすべて収録され、とくに最初の2年間は書き起こしが終了している。この2年間の書き起こしデータを用いることによるシステムの性能の向上の予備評価についても報告する。このたけまるくんの成果を活かして、今年の3月末に、奈良先端大の近くの近鉄の駅「学研北生駒」に、独立した2つの音声情報案内システム「キタちゃん」と「キタロボ」を設置した。駅は60dBAと、コミュニティセンターに比べて、騒音レベルが10dB程度高く、厳しい音声認識の利用条件である。「キタちゃん」は、たけまるくんと同様にCGエージェントが応答する型で、タッチパネルも併用できる大人向けのシステムである。「キタロボ」は、ロボット型インタフェースで、どちらかというと子供向きのシステムである。この両システムの運用も6ヶ月間になるが、良好に動作している。たけまるくんからこの両システムへのポータビリィティについても述べる。We have been developing and operating "Takemaru-kun" spoken information guidance system in North Community Center in Ikoma city these four years. Takemaru-kun, which is composed of large vocabulary continuous speech recognition program Julius and Q-A database, is now widely used by Ikoma citizens, mainly children. All inputs have been recorded and the first two-year data are annotated. Takemaru-kun system improvement based on two year annotated data is also reported. Takemaru-kun was successfully ported to two spoken information guidance systems in Gakken North Ikoma railway station in the end of this March. These two systems are CG agent type "Kita-chan" , and robot type "Kita-robo". The portability of acoustic models from Takemaru-kun to Kita-robo is also discussed.
著者
岡本 英樹 小島 摩里子 松井 知子 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.79-84, 2007-07-19

本稿では非可聴つぶやき(Non-Audible Murmur:NAM)を用いた話者照合法について,新たに収集したデータを用いて分析した結果を報告する.NAMとは,外部の騒音に対して頑健な体表接着型マイクロフォンを用いて収録したつぶやき音声を指す.これまでNAMの発声内容が他人に漏れ聞こえることがないという利点を活かし,NAMによるキーワードを利用したテキスト依存型話者照合法を提案してきた.今回は,新たに男性18名,女性9名のNAMを収録し,それらを詐称者セットとして用いて実験を行い,その性能を詳しく調べた.また,学習に使用する発声数,時期数をいろいろと変えて実験することにより,複数時期にわたって収録された音声を使用することの有効性を示す.また,話者照合システムを利用するユーザにとって登録時に必要となる発声数が少ないほど負担は軽減する.そのため,学習データに使用する発声数を減らして実験を行い,その性能の劣化の度合いを調べることにより,どのくらいの音声データが登録時に必要となるかを明らかにする.
著者
戸田 智基 大谷 大和 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.221, pp.25-30, 2006-08-23
被引用文献数
2

声質変換(Voice Conversion: VC)の新しい枠組みとして,固有声に基づく声質変換法(Eigenvoice Conversion: EVC)を提案する.本報告では,ある特定の話者から任意の話者への変換(一対多VC),および任意の話者からある特定の話者への変換(多対一VC)に対してEVCを適用する.EVCでは,予め収録された多数話者によるパラレルデータを用いて,固有声混合正規分布モデル(Eigenvoice Gaussian Mixture Model: EV-GMM)を事前に学習する.EV-GMMは出力(多対一VCでは入力)音声の声質を制御する少量のフリーパラメータを持つ.所望の話者に対する変換モデルは,その話者の音声データに対してフリーパラメータを最尤推定する事で構築される.この際に,発話内容に関する情報は一切使用しないため,完全な教師なしモデル適応が実現される.さらに,一対多VCにおいては,フリーパラメータを声質制御イコライザーとして用いることで,出力変換音声の声質を手動で制御する事も可能である.一対多VCおよび多対一VCにおいて実験的評価を行った結果,EVCでは所望の話者の音声データが2文程度あれば,高い変換精度が得られる事が分かった.
著者
坂野 秀樹 陸 金林 中村 哲 鹿野 清宏 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.177, pp.15-20, 1997-07-17
被引用文献数
9

これまで音声の短時間位相は振幅情報に比べると聴覚的に重要でないという理由でなおざりにされてきた. しかし, 高品質な音声合成や符号化を考えた場合, それは必ずしもあてはまる訳ではなく, 短時間位相も合成音の品質に大きく関わってくる. ところが, 振幅スペクトルにはいくつかのパラメータ化法が確立されており効率的な表現が可能なのに対し, 短時間位相にはそのような方法は確立されていない. そこで, 短時間位相を効率良く表現する方法を提案し, 主観評価及び客観評価の両方から提案手法の有効性を示す.
著者
中村 敬介 西村 竜一 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.632, pp.13-18, 2004-01-22
被引用文献数
9 1

実環境における音声インタフェースでは笑い声や咳などのユーザが意図しない入力や周囲の雑音による誤入力,あるいは笑い声などの通常の発話と区別すべき入力が多く存在する.本研究では,音声/雑音,および通常発話/不要音を識別する頑健な音声対話システムを目指し,そのためのGaussian Mixture Model(GMM)を用いた環境雑音および不要発話の識別法およびその効果について報告する.生駒市北コミュニティセンターの公共音声情報案内システム「たけまるくん」におけるフィールドテストで収集したユーザ発話を複数のクラスに分類し,それぞれの音響的特徴をGMMに学習させて音声識別実験を行ったところ,各クラスごとでの識別率は128混合GMMで平均80.6%,音声/非音声の識別率は96.3%を達成し,GMMによる識別が可能であることが確認できた.音声/非音声の識別においても,2クラスのGMMよりも雑音の種別ごとにGMMを用いるほうが高い識別性能を示した.また,Cepstral Mean Subtraction(CMS)を行わないことで,クラスごとの識別性能を平均3.2%向上できることを確認した.
著者
上村 益永 高橋 祐 猿渡 洋 鹿野 清宏 近藤 多伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.108, no.143, pp.43-48, 2008-07-11

本稿では,スペクトル減算処理過程で生じるミュージカルノイズ量の計量尺度を提案する.スペクトル減算法はミュージカルノイズと呼ばれる人工的で耳障りな歪みを生じ,音質の劣化が著しいという問題を抱えている.そのため数多くのミュージカルノイズ対策手法が提案されているが,ミュージカルノイズの評価尺度が存在しないために,その効果を定量的に議論することができない.我々は,スペクトル減算処理によるミュージカルノイズ発生量が処理強度と原信号の確率密度関数の形状に関係深いことを発見した.この関係に着目し,高次統計量を利用することで確率密度関数の形状を考慮できるミュージカルノイズ発生量の計量尺度を提案する.最後に,主観評価実験により提案尺度とミュージカルノイズが高い相関を持つことを示す.
著者
猿渡 洋 鹿野 清宏 戸田 智基 川波 弘道 小野 順貴 宮部 滋樹 牧野 昭二 小山 翔一
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2011-04-01

本研究では、高次統計量追跡による自律カスタムメイド音声コミュニケーション拡張システムに関して研究を行った。具体的なシステムとして、ブラインド音源分離に基づく両耳補聴システムや声質変換に基づく発声補助システムを開発し、以下の成果が得られた。(1)両耳補聴システムに関しては、高精度かつ高速なブラインド音源分離及び統計的音声強調アルゴリズムを提案し、聴覚印象の不動点を活用した高品質な音声強調システムが実現できた。(2)発声補助システムに関しては、データベース間における発話のミスマッチを許容する声質変換処理を開発した。実環境模擬データベースを用いてその評価を行い、有効性を確認することが出来た。
著者
鹿野 清宏 川波 弘道 李 晃伸 猿渡 洋 陸 金林 中村 哲
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(C)
巻号頁・発行日
1998

話者適応、環境雑音適応、タスク向き話し言葉言語モデル構築の研究が大いに進展し、当初の目的を十分に達成した。以下、簡単に項目ごとにまとめる。1 教師なし話者適応アルゴリズムの考案と評価話者選択と十分統計量に基づく教師なし話者適応アルゴリズムを考案した。発声者が任意の1文を発声するだけで、その発声者に近い話者のHMM十分統計量から発声者に適応した高精度な音韻モデルが構築できた。2 教師なし環境雑音適応アルゴリズムの考案と評価十分統計量を用いた教師なし話者適応アルゴリズムを、環境雑音適応と同時に実行できるアルゴリズムに拡張した。さらに、スペクトルサブトラクション法の導入により、話者・環境同時適応の性能を向上させた。3 タスク向き話し言葉言語モデルと音声対話システムの構築Webの検索エンジンと、言語識別として文字トライグラムを用いたコーパス自動収集システムを構築して、言語モデルの自動作成アルゴリズムを開発した。さらに、受付案内ロボットによる音声認識応答による学内案内システムを構築して、開発してきたアルゴリズムの実環境下における有効性の確認およびデータ収集を開始した。4 開発アルゴリズムの普及開発してきた話者適応、環境適応、タスクアルゴリズムを、研究代表者が代表をつとめている情報処理学会の「連続音声認識コンソーシアム」を通して、企業、大学への普及の努力を行ってきた。本科学研究補助金の関連発表は、平成10年から13年までで、学術論文15件、著書1件、解説3件、国際会議19件、研究会22件、大会講演33件である。
著者
中村 圭吾 戸田 智基 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. WIT, 福祉情報工学 (ISSN:09135685)
巻号頁・発行日
vol.109, no.260, pp.49-54, 2009-10-22
参考文献数
21

本稿では,喉頭摘出者が外部機器を用いた電気音声に対して,統計的声質変換を適用した実験的評価を報告する.用いる外部機器として,1)周囲の者に聴取されないほど微弱な信号を出力する音源,2)従来のモノトーンピッチを出力する電気式人工喉頭,及び3)ユーザが気管孔から出力する呼気圧でF_0を制御する呼気センサーを用いた電気式人工喉頭の3種類を用いる.発声された電気音声は,ヘッドセットマイクロフォンまたはNon-audible murmurマイクロフォンで収録され,ささやき声または通常音声のいずれかに変換される.実験的評価の結果,1)呼気センサーの使用はF_0推定の精度を改善するのに有効である,2)入力F_0を用いる効果は薄いが,声質変換性能は特に劣化しない,3)全ての変換の枠組みおいて自然性が大きく改善し,変換音声は元の電気音声と比べてより好ましいことを確認する.
著者
河原 達也 住吉 貴志 李晃伸 武田 一哉 三村正人 伊藤彰則 伊藤 克亘 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.100, pp.37-42, 2001-10-19
参考文献数
20
被引用文献数
24

連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.
著者
西村 竜一 梶田 将司 武田 一哉 板倉 文忠 鹿野 清宏
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827837)
巻号頁・発行日
vol.42, no.3, pp.605-613, 2001-03

本論文では, Webベースのオンライン教育環境に音声入力機能を加えるWebSPEAC(Web SPEech Acquisition for Courseware)Systemを提案する.これまで, Webベースオンライン教育環境では, 音声を出力する教材の作成は可能だったが, 音声入力のできる教材やコミュニケーションツールの提供はできなかった.本システムは, (1)Webブラウザには音声入力機能のみを提供し, 音声を用いるアプリケーションプログラムはWebサーバ上で一括管理するので保守性が高い, (2)クライアント側は, 簡単な初期設定のみで利用できる, (3)サーバプッシュを利用してWebでの音声入力インタフェースを実現している, という特徴があり, 音声を用いたインタラクティブなWebベースのオンライン教材の作成を可能にする.また, 本システムの応用例として, Webベースの入力音声分析ソフトウェア, 音声確認システム, 受験者認証システムを作成した.このうち, 音声入力部分について, 入力音声分析ソフトウェアを利用してファイルアップロードによる従来システムとの比較実験を行った.その結果, 本システムはステップ数, 誤りステップ数, タスク完了時間において操作コストを削減できることが確認できた.
著者
李 晃伸 河原 達也 武田 一哉 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.12, pp.2517-2525, 2000-12-25
被引用文献数
47

大語彙(い)連続音声認識のための新たなphonetic tied-mixture(PTM)モデルを提案する.このモデルは各音素モデル(monophone)の各状態がもつ64個のガウス分布集合をtriphoneの対応する状態に割り当て, 重みのみを変えて共有することで合成する.通常の状態共有triphoneに比べて音響空間を効率良く表現でき, また巨大なコードブックを要する従来のtied-mixtureモデルよりも学習が容易である.2万語の新聞記事読み上げタスクにおいて評価した結果, triphoneでの最大性能に近い7.0%の単語誤り率をより少ないパラメータ数で達成した.処理効率の点においては, 音響スコア計算に用いるガウス分布を上位3%にまで削減しても精度がほとんど低下しなかった.いくつかのガウス分布の足切り計算(Gaussian pruning)手法を提案及び比較した結果, 最終的に音響ゆう度計算を約5分の1にまで削減できた.
著者
西村 竜一 西原 洋平 鶴身玲典 李晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.35-40, 2003-02-07
被引用文献数
6

生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムでは,大語彙連続音声認識を利用した一問一答形式の音声対話により,同センターや生駒市に関する案内を行うことが可能である.実用化を目指した本システムは,2002年11月6日からセンター内に常設され,開館時は誰でも自由に愛嬌のあるエージェントとのコミュニケーションを楽しむことができる.また,システムの改良に必要な対話記録を実際の運用を通じて収集し,発話内容の書き起こし等のデータの整備もすすめている.本稿では,主に本システムの構成および発話音声データ収集の状況について報告する.また,成人による比較的クリーンな発話をテストセットにした本システムの評価実験を行い,84%の単語正解率と70%の応答正解率を確認した.We implemented a practical speech guidance system for public use. It is called ``Takemaru-kun'', and located daily at the entrance hall of Ikoma Community Center to inform visitors about the center and around Ikoma city via speech human-machine interface and funny animating agent of Takemaru. This system aims to promote a field test for robust speech recognition in practical environment, and to collect actual utterance data in the framework of human-machine speech dialogue. The system has been running everyday since November 6, and a large number of user utterances have been collected. Classification and transcription of the data is also undertaken. This paper reports the outline of this system and current status of the data collection. In a recognition experiment with extracted samples of adult voices, word accuracy of 84% and answer rate of 70% was obtained.
著者
芳澤 伸一 馬場 朗 松浪 加奈子 米良 祐一郎 山田 実一 李 晃伸 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.85, no.3, pp.382-389, 2002-03-01
被引用文献数
16

十分統計量と話者距離を用いた音韻モデルの教師なし学習法を提案する.提案法では,音響的に近い話者群の十分統計量を用いて統計処理計算により正確に適応モデルを構築する.提案法では,(1)発声話者に音響的に近い話者を選択し,(2)選択された話者の十分統計量を用いて発声話者に適応した音韻モデルを作成する.十分統計量の計算は適応処理の前にオフラインで行う.提案法では発声話者の音響的に近い話者群の十分統計量を用いて統計処理計算に基づき適応化を行うため高い認識率を獲得することができる.また,少量の発声文章で適応処理が行われる.更に,十分統計量をオフラインで計算することにより適応時の処理が短時間で行われる.話者クラスタリングによる方法と比較すると,提案法では発声話者のデータによりオンラインで動的に話者クラスタを決定するため,適切な話者クラスタを獲得することができる.認識実験により,少量の発声文章により適応を行った場合,MLLRより高い認識率を獲得できることを示す.
著者
戸田 智基 河井 恒 津崎 実 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.291, pp.19-24, 2002-08-22
被引用文献数
2

素片選択に基づく波形接続型テキスト音声合成において自然性の高い合成音声を得るためには,知覚特性に一致したコストを用いることが重要である.本稿では知覚実験により求めた知覚スコアを用いることにより,コストの知覚特性に基づく評価を行う.その際に,コストと知覚スコア間の対応関係を明らかにするだけでなく,素片系列のコストを求めるために必要な各素片におけるコストを統合する関数についても検討する.実験結果から,合成音声全体における平均的な自然性劣化を表す平均コストは,局所的な自然性劣化を表す最大コストよりも知覚スコアとの対応が良いことを示す.また,平均的な自然性劣化と局所的な自然性劣化の両方を考慮するコストであるRMSコストを用いた際に,最も知覚スコアとの対応が良いことも示す.さらに,RMSコストによる素片選択に関しての検討を行うことにより,RMSコスト使用時には局所的な大きな自然性劣化を防ぐために,より短い単位の素片が多く用いられる傾向があることを示す.