著者
戸田 智基 河井 恒 津崎 実 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.603, pp.45-52, 2002-01-17
被引用文献数
2

本稿では, 日本語テキスト音声合成(TTS : Text-to-Speech)における新たな単位選択法を提案する.日本語では, 母音の無声化を除くとCV(C : 子音, V : 母音)とVから音節が構成されるため, 合成単位としてCV単位がよく用いられる.しかし, 波形接続型のTTSにおいてCV単位を用いて音声を合成すると, VからVへの接続によりしばしば不連続感が生じる.V-V接続を防ぐためにより長い単位(CV^*単位や可変長単位)がこれまでに提案されているが, V-V接続の問題はまだ解決されていない.そこで, V-V接続により生じる不連続感を低減する手法として, 音素単位とダイフォン単位に基づいた新たな単位選択法を提案する.提案法では, 音素境界における接続だけでなく, 母音中心における接続も考慮して単位選択が行われる.評価実験結果から, 提案法は音素単位に基づいた従来法と比較し, よりよい性能をもっことが明らかになった.
著者
鹿野 清宏 猿渡 洋 川波 弘道
出版者
奈良先端科学技術大学院大学
雑誌
萌芽研究
巻号頁・発行日
2005

H17年度に収録した28人からなり、異なる4時期で発声した非可聴つぶやき声(NAM)個人認証データベースをもとにNAMによる話者認証の研究を進めた。さらに、27人の詐称者のNAMを収録して、NAM個人認証データベースを完成するとともに評価を行った。NAMにより個人認証の研究で、研究を担当した小島麻里子(M2)が、暗号と情報セキュリティシンポジウムSCIS2006論文賞を受賞した。(1)Hl7年度に収録した28名のN削個人認証データベースに加えて、27名の詐称者のN削個人認証データベースの収録し、NAM個人認証データベースを完成した。異なる時期の登録データを利用することが大いに有効であることが分かった。(2)NAM音声データベースを用いて、NAM個人認証アルゴリズムの研究および認証能力の評価を引き続き行う。とくに、発声者の登録の負担を減らすことを目指して、1時期あたりの発声数を減らす効果を調べ、1時期あたり2発声程度まで個人認証率が保たれることを確認した。(3)セグメント情報とSVM(サポートベクターマシン)を用いた個人認証アルゴリズムが、NAM音声の認証において、従来のGMM(ガウス混合分布モデル)などよりも飛躍的に高い個人認証能力を持つことが確かめられた。(4)他人がパスワードを発声した場合のNAMの認証能力、本人がパスワードを忘れた場合の拒絶能力を個人認証実験で調べた。個人のNAMマイクによる体内音も収録して、個人認証実験を行ったが、有効な結果は得られなかった。
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。
著者
永井 明人 北 研二 花沢 利行 川端 豪 鹿野 清宏 森元 逞 嵯峨山 茂樹 榑松 明 鈴木 忠 岩崎 知宏 中島 邦男
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.9, pp.723-729, 1994-09-01
被引用文献数
1

本稿は、大語彙の連続音声認識を実時間で処理するための、HMM-LR連続音声認識装置の設計、処理性能について述べる。HMM-LR法は、一般化LR構文解析により入力音声データ中の音素を予測し、予測された音素の存在確率をHMM音素照合により調べることで、音声認識と言語処理を同時進行させる方式であり、高精度で効率的な処理系を構成することができる。処理量が極めて大きな継続時間制御付きトレリス計算を伴うHMM-LR連続音声認識を実時間で実行するために、本装置は種々の高速化手法を33個のDSPを用いて実現した。その結果、連続文節発声の入力音声に対し、入力文の長さに依らずに、発声終了後から2〜3秒ですべての認識処理を終了する処理速度を達成した。
著者
李晃伸 山田 真士 西村 竜一 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.103, pp.49-54, 2004-10-22
被引用文献数
8

機械に対するユーザの自然な実発話の収集と統計的な分析のために,我々は音声情報案内エージェントシステム「たけまるくん」を公共施設に設置し,2004年5月までの19ヶ月間で約17万発話を収集・整備した.本稿では現在のシステム構成,収集データの分析結果および雑音・不要音棄却実験の結果を報告する.全体のおよそ 30%が雑音などの非音声入力であった.音声入力のうち81%が有効発話であり,残りは背景会話・無意味な発声・不明瞭で聞き取れない発声・発話断片・オーバフローなどの応答不能な無効発話であった.これらの無効発話に対して,入力長とGMMに基づく雑音・不要音棄却の性能を評価した.1か月分8 248個のデータで実験した結果,雑音・息・咳・笑い声などの非音声入力は99%棄却でき,叫び声や遠隔で発声された背景会話もある程度棄却できることが分かった.一方で,発話断片やドメイン外発話については音響的特徴からの弁別は難しかった.In order to collect user's actual utterances to a speech dialogue system on real situation, we have located a speech-oriented information guidance system called ``Tekemaru-kun'' at a public civil hall, and collected 177,789 inputs via 19 months' operation. This paper will report the current system architecture, details of collected data and experimental results of invalid input rejection. As a result, non-voice (noise) inputs occupies about 30% of total input, and 81% of voice inputs are valid inputs. The rests are invalid voice inputs that includes background speech, incomprehensible voice, obscure speech, fragmented speech, level overflow and so on. Rejection of those invalid inputs has been examined based on input length threshold and GMM-based identification. Experiments on 8,248 inputs of one month showed that almost all of noise and non-verbal inputs such as breath, coughing and laughter can be rejected successfully, and distant background speech and shouts were also discriminative, whereas out-of-domain utterance, obscure speech and fragments cannot be detected only by the acoustic property.
著者
中村 哲 花沢 利行 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.45, no.12, pp.942-949, 1989-12-01
被引用文献数
4

本論文では、筆者らがすでに提案した話者適応化アルゴリズムをHMM音韻認識に適用する。HMMに適用する際には、動的特徴を考慮したセパレートベクトル量子化、ファジィベクトル量子化、ファジィヒストグラム、ファジィマッピングを用いる。更に、HMMとの効率的な整合のために、対応づけヒストグラムを標準話者のファジィ級関数としてファジィHMMを計算する話者適応アルゴリズムを用いる。音韻バランス216単語、重要語5,240単語を用いて有声破裂音/b,d,g/及び全音韻の音韻認識実験を男女計3名の話者について行った結果、次の事柄が確かめられた。(1)動的特徴を考慮したセパレートベクトル量子化を用いることにより有声破裂音の認識率が6.4%改善できる、(2)ファジィベクトル量子化を用いることにより有声破裂音の認識率が3.4%改善できる、(3)ファジィヒストグラムを用いることにより話者適応化の学習に必要な単語数を100単語から25単語に削減しても認識率の低下を0.4%に抑えられる。また、有声破裂音の認識率は、男性間で83.1%、男女間で76.5%で、従来法[M.Feng et al. ICASSP 88]との比較では11.7%の認識率の改善となること、全音韻の認識では、男性間で75.6%、男女間で71.8%で、上位3位までの累積認識率では、男性間、男女間いずれの場合にも約91%を達成できることが分かった。
著者
熊谷 建一 中村 哲 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.522, pp.67-72, 2000-12-14
被引用文献数
5

近年, 音声認識の性能は大きく改善されたが, さらに, 音声のSNRが低い雑音環境での高い音声認識性能が求められている.そのような環境に適した音声認識システムとして, 音声情報と唇周辺の動画像を用いたバイモーダル音声認識が注目されている.このようなシステムを構築するためには, 音声情報と画像情報の統合が重要な問題となる.統合においては, (1)音声を発話する前に発声の準備のために唇が動き, 発話が終わった後に遅れて唇が閉じるといったような, 音声と唇周辺の動きの非同期性, (2)周辺環境に応じたシステムの適応化, といった問題がある.本稿では, まず(1)の問題に対し, 音声と唇周辺の動きの非同期性を考慮するHMM合成に基づいた統合を行う.次に(2)の問題に対しては, GPDアルゴリズムを用い, 少数の環境適応用のデータ(以下適応データ)からストリーム重みを推定することを検討する.音響的な雑音がある場合について, 単語認識実験を行った結果, 認識性能が改善されることが示された.
著者
竹内 翔大 ツィンツァレク トビアス 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.295-300, 2007-12-21
被引用文献数
2

実環境で頑健に動作する音声対話システムには多彩な発話表現を柔軟に処理できる対話制御技術が必要となる.多彩な発話表現に対して頑健な応答生成手法として,用例ベースの応答生成が研究されている.この手法では質問応答データベース (QADB) を用いて入力音声の認識結果に最も近い質問例を選択し,入力に対して最も適切な応答を生成する.これまで,QADB は発話データの書き起こし文を用いて作成されていた.本稿では,音声認識結果を用いた QADB (認識結果 QADB) による応答生成とその最適化を提案する.この手法により,入力に含まれる音声認識誤りに頑健な用例選択が行える.システム応答の適切さを応答正解率で評価した結果,6候補程度の認識結果を用いて QADB を作成し,最適化を行うことで,従来と同等以上の応答正解率が得られた.A speech-oriented dialog system employed in real-environment requires dialog control techniques which enable flexible processing of various utterance expressions. As a robust response generation method for various utterance expressions, an example-based response generation method has been studied. This method employs a question and answer database (QADB) to generate the most appropriate response by selecting an example question which is nearest to an input. Conventionally, a QADB is constructed from transcriptions of utterance data. In this paper, we propose response generation based on a question and answer database using automated speech recognition results (ASR-QADB), which enables to perform robust selection of examples against recognition errors. Evaluating the performance of system responses by response accuracy, the same response accuracy as with the conventional method is achieved by constructing and optimizing ASR-QADB using 6-best recognition results.
著者
中島 淑貴 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.107, pp.13-18, 2006-10-20

NAMマイクロホンにより収録されるNAMは,声質変換などの技術で,通常音声やささやき声に変換して無音声電話などの通信に使う方法があるが,NAMマイクロホン回路に,あるカットオフ周波数とスロープ特性をもつハイパスフィルタを組み込むことにより,出力は聴覚的に擬似的なささやき声様の音声となり,学習の必要がなく,ローコストでリソース消費のない通信利用が可能になる.今回我々は理想的なハイパスフィルタのカットオフ周波数とスロープを決めるために HPF-NAMの聴覚的な評価実験を行った.Non-Audible Murmur (NAM) can be used as an input interface for confidential telecommunication that annoys nobody due to its conversion to normal speech or a whisper voice using the technology of statistical voice conversion, so-called "non-speech telephony." Instead of using statistical voice conversion we installed an analog high-pass filter only of a resistor and a condenser into the NAM microphone amplifier circuit, and converted NAMs to a whisper-like voice (HPF-NAM) at presumably the lowest resource cost. In this paper we perform perceptual evaluations of naturalness and intelligibility on HPF-NAMs to determine the optimal cut-off frequency and filter slope of the high-pass filter.
著者
中山 彰 陸 金林 中村 哲 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DSP, ディジタル信号処理 (ISSN:09135685)
巻号頁・発行日
vol.98, no.262, pp.57-62, 1998-09-11
被引用文献数
3

近年、ディジタル著作物の著作権を守る手段として電子透かし技術が開発されてきている。電子透かしは聴覚的には聴こえないということが重要であり、それを考慮した透かしアルゴリズムのひとつとしてLaurenceらの提案するMPEG心理音響モデルを用いた電子透かし法がある。ただこの方法は同時マスキングのみを考慮したものである。そこで本稿では心理音響実験の知見を用いて継時マスキングの定式化を行ない、それをLaurenceらの方法に導入し、もともとの方法との比較を行なった。その結果、両手法とも透かしの入った音楽でも高い品質を保っていることが明らかになった。また継時マスキングを組み込んだ場合の透かしの強度では、MPEGの符号化に対してLaurenceらの提案手法より、若干の改善が見られた。