著者
西村 竜一 西原 洋平 鶴身 玲典 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.87, no.3, pp.789-798, 2004-03-01
被引用文献数
65

実環境下での音声インタフェースの研究プラットホームとして,生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムは,大語彙連続音声認識を基礎とする一問一答形式の音声インタフェースをもち,同センターや生駒市に関する受付案内を可能とする.システムはセンターのエントランスに常設され,開館時は誰でも自由にエージェントとのコミュニケーションを楽しむことができる.ユーザとシステムとのインタラクションの観察を目的とした5か月間にわたる本システムのフィールドテストを実施し,ユーザによる発話ログの収集を行った.本論文では,はじめに音声インタフェース部を中心に本システムの構成について説明する.フィールドテストの結果,男女幅広い年齢層のユーザによる発話を含む約1,362分の音声データを収集した.その分析の結果から,大人と子供で発話内容の傾向に違いはあるが,本システムは有効に利用されていることを示す.実験では,実際のユーザ発話によるベースラインの認識性能の評価を行い,大人に対して86%の単語認識率と76%の応答正解率を得ることができた.しかし,子供のユーザに対する精度が十分でないなど,音声インタフェースの実用化に向けて多くの課題が残されていることを確認した.
著者
李 晃伸 河原 達也 堂下 修司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.82, no.1, pp.1-9, 1999-01-25
被引用文献数
80

大語彙連続音声認識のための効率の良い段階的 (2パス) 探索手法を提案する. 中間表現として従来広く用いられているN-best表現の一種である単語グラフ形式は, 単語単位で決定的に区分化するためにコンテクストに依存したマッチング長の変動を表現できず, 直前単語ごとに仮説を多重化する単語対近似に伴う処理量の増大が著しい. これに対して単語トレリスインデックスという形式を提案する. 仮説を多重化せずに, 第1パスのトレリスでビーム内に残った単語終端ノードのゆう度と対応する始端をすべて保存することで, 単語境界の存在範囲のあいまい性を保持する. 第2パスではこれを逆引きすることで探索空間の絞込みを行い, またヒューリスティックスコアとして用いることで, 大語彙においても高精度かつ効率の良い探索を実現する. 5000語の毎日新聞記事読上げタスクで評価を行った結果, 単語グラフ形式に比べて高精度であることが確かめられた. 更に仮説を多重化しない1-best近似を用いることで, メモリ効率を10倍以上改善しながら従来手法とほぼ同等の認識精度が得られた. 単語間音素環境依存性を考慮した最終的な単語認識精度は91.4%を達成した.
著者
西村 竜一 内田 賢志 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.522, pp.93-98, 2001-12-13
被引用文献数
5

ASKA(アスカ)は, 大学の受付案内システムを目標として開発中の頭部や腕のジェスチャ機能を持つ人間型音声対話ロボットである.音声対話機能は, 大語彙連続音声認識エンジンJuliusと学内案内タスク向けN-gram言語モデルを基礎としたキーワード検索による音声認識理解部と音声合成部によって構成されており, 対人センサやジェスチャ生成などの他のモジュールと状態を通信しながら分散的な動作を行なう.本ロボットは, 奈良先端大における学内共同プロジェクトで開発されており, エージェントシステムにおける様々な要素技術の実環境での検証プラットフォームと位置付けられている.今後も新たな要素技術を採り入れながら開発を続ける予定である.本稿では, 音声対話機能の実装方法を中心に現在のASKAの概要および今後の予定について述べる.
著者
李 晃伸 河原 達也 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
巻号頁・発行日
vol.49, pp.281-286, 2003-12-18
参考文献数
15
被引用文献数
7

音声認識システムにおいて,認識結果に対して事後確率などを用いて信頼度を付与することで,発話検証や対話管理などの音声アプリケーションにおいて認識誤りを考慮したより高度な処理を行うことができる.この単語の事後確率を用いた信頼度算出では,通常,認識処理(デコーディング)の結果得られた仮説群のゆう度をもとに計算されるが,十分な精度の確信度を得るためにはN-best候補で数百以上の大量の文仮説を求める必要があり,多くの計算量を必要とする.本研究では,2パストリートレリス探索に基づくデコーディングにおいて,探索中に得られる部分文仮説の尤度から単語の信頼度を簡易かつ高速に算出するアルゴリズムを提案する.後段パスのスタックデコーディングにおける単語仮説展開時に,その次単語仮説の集合およびそれぞれから展開される新たな仮説のヒューリスティックを含む尤度から,その展開単語の事後確率を計算する.通常のデコーディング処理に対して極めて少ない計算量で信頼度を計算できる.認識エンジンJuliusにおいて,N-best候補から事後確率を算出する従来手法との比較を行った結果,提案手法は大量のN-best候補を求める必要がないことから認識処理全体を非常に高速に行え,また信頼度の精度も,簡易な計算法ながらN-best候補を用いる手法と同等以上の信頼度を算出できることが示された.
著者
李 晃伸
雑誌
全国大会講演論文集
巻号頁・発行日
vol.70, pp.345-346, 2008-03-13
参考文献数
3
被引用文献数
1
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
中村 敬介 西村 竜一 李 晃伸 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.632, pp.13-18, 2004-01-22
被引用文献数
9 1

実環境における音声インタフェースでは笑い声や咳などのユーザが意図しない入力や周囲の雑音による誤入力,あるいは笑い声などの通常の発話と区別すべき入力が多く存在する.本研究では,音声/雑音,および通常発話/不要音を識別する頑健な音声対話システムを目指し,そのためのGaussian Mixture Model(GMM)を用いた環境雑音および不要発話の識別法およびその効果について報告する.生駒市北コミュニティセンターの公共音声情報案内システム「たけまるくん」におけるフィールドテストで収集したユーザ発話を複数のクラスに分類し,それぞれの音響的特徴をGMMに学習させて音声識別実験を行ったところ,各クラスごとでの識別率は128混合GMMで平均80.6%,音声/非音声の識別率は96.3%を達成し,GMMによる識別が可能であることが確認できた.音声/非音声の識別においても,2クラスのGMMよりも雑音の種別ごとにGMMを用いるほうが高い識別性能を示した.また,Cepstral Mean Subtraction(CMS)を行わないことで,クラスごとの識別性能を平均3.2%向上できることを確認した.
著者
鹿野 清宏 川波 弘道 李 晃伸 猿渡 洋 陸 金林 中村 哲
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(C)
巻号頁・発行日
1998

話者適応、環境雑音適応、タスク向き話し言葉言語モデル構築の研究が大いに進展し、当初の目的を十分に達成した。以下、簡単に項目ごとにまとめる。1 教師なし話者適応アルゴリズムの考案と評価話者選択と十分統計量に基づく教師なし話者適応アルゴリズムを考案した。発声者が任意の1文を発声するだけで、その発声者に近い話者のHMM十分統計量から発声者に適応した高精度な音韻モデルが構築できた。2 教師なし環境雑音適応アルゴリズムの考案と評価十分統計量を用いた教師なし話者適応アルゴリズムを、環境雑音適応と同時に実行できるアルゴリズムに拡張した。さらに、スペクトルサブトラクション法の導入により、話者・環境同時適応の性能を向上させた。3 タスク向き話し言葉言語モデルと音声対話システムの構築Webの検索エンジンと、言語識別として文字トライグラムを用いたコーパス自動収集システムを構築して、言語モデルの自動作成アルゴリズムを開発した。さらに、受付案内ロボットによる音声認識応答による学内案内システムを構築して、開発してきたアルゴリズムの実環境下における有効性の確認およびデータ収集を開始した。4 開発アルゴリズムの普及開発してきた話者適応、環境適応、タスクアルゴリズムを、研究代表者が代表をつとめている情報処理学会の「連続音声認識コンソーシアム」を通して、企業、大学への普及の努力を行ってきた。本科学研究補助金の関連発表は、平成10年から13年までで、学術論文15件、著書1件、解説3件、国際会議19件、研究会22件、大会講演33件である。
著者
李 晃伸 河原 達也 武田 一哉 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.12, pp.2517-2525, 2000-12-25
被引用文献数
47

大語彙(い)連続音声認識のための新たなphonetic tied-mixture(PTM)モデルを提案する.このモデルは各音素モデル(monophone)の各状態がもつ64個のガウス分布集合をtriphoneの対応する状態に割り当て, 重みのみを変えて共有することで合成する.通常の状態共有triphoneに比べて音響空間を効率良く表現でき, また巨大なコードブックを要する従来のtied-mixtureモデルよりも学習が容易である.2万語の新聞記事読み上げタスクにおいて評価した結果, triphoneでの最大性能に近い7.0%の単語誤り率をより少ないパラメータ数で達成した.処理効率の点においては, 音響スコア計算に用いるガウス分布を上位3%にまで削減しても精度がほとんど低下しなかった.いくつかのガウス分布の足切り計算(Gaussian pruning)手法を提案及び比較した結果, 最終的に音響ゆう度計算を約5分の1にまで削減できた.
著者
芳澤 伸一 馬場 朗 松浪 加奈子 米良 祐一郎 山田 実一 李 晃伸 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.85, no.3, pp.382-389, 2002-03-01
被引用文献数
16

十分統計量と話者距離を用いた音韻モデルの教師なし学習法を提案する.提案法では,音響的に近い話者群の十分統計量を用いて統計処理計算により正確に適応モデルを構築する.提案法では,(1)発声話者に音響的に近い話者を選択し,(2)選択された話者の十分統計量を用いて発声話者に適応した音韻モデルを作成する.十分統計量の計算は適応処理の前にオフラインで行う.提案法では発声話者の音響的に近い話者群の十分統計量を用いて統計処理計算に基づき適応化を行うため高い認識率を獲得することができる.また,少量の発声文章で適応処理が行われる.更に,十分統計量をオフラインで計算することにより適応時の処理が短時間で行われる.話者クラスタリングによる方法と比較すると,提案法では発声話者のデータによりオンラインで動的に話者クラスタを決定するため,適切な話者クラスタを獲得することができる.認識実験により,少量の発声文章により適応を行った場合,MLLRより高い認識率を獲得できることを示す.
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。
著者
大浦 圭一郎 全 炳河 南角 吉彦 李 晃伸 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.338, pp.215-220, 2008-12-02

本報告では隠れマルコフモデル(Hidden Markov Model; HMM)に基づく音声合成システムにおける共分散パラメータの共有について述べる.近年,音声合成システムへの需要が高まっており,HMMに基づいた音声合成システムでは音声波形の断片をそのまま利用するのではなく,音声波形の特徴をHMMによりモデル化し,HMMのモデルパラメータを合成システムに保持するため,同程度の音質の波形接続法式に比べてフットプリントが小さい利点がある.中でも組み込み向けのシステムには携帯電話,PDA,カーナビ,情報家電,ゲーム機等への用途があるが,必要なCPU,メモリ等が制限されることが多く,更なるフットプリントの縮小が必要である.HMMに基づく音声合成システムにコンテキスト依存モデルを用いることで高精度な音響モデルを構築することができ,決定木に基づくコンテキストクラスタリングを用いて状態共有構造を構築する際に,組み込み用途向けに決定木のサイズを小さくすることも考えられるが,音質が劣化する.本報告では,平均に比べて共分散が音質に与える影響が小さいことに注目し,全てのパラメータの共分散を共有する手法を提案する.このパラメータ共有を仮定した上でのコンテキストクラスタリングを行い,主観評価実験により,パラメータ数を大幅に削減するのみならず,若干の品質改善を達成した.