著者
加藤 健一 小川 哲司 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.106, no.442, pp.25-30, 2006-12-15

本稿では,特徴変換にブースティングの枠組を適用した識別器統合手法を提案する.一般的に,複数の識別器を統合するとき,識別性能は向上することが期待できる.しかし,識別器の統合にあたって,二つの重要な課題がある.一点目は,統合する識別器各々の誤り傾向が異なっていなければ(相補性がなければ),わずかな性能の改善しか得られない点,二点目は,相補的な識別器が生成されたとしても,各々の識別器が与える情報の統合手段が適切でない場合,やはりわずかな性能の向上しか得られないという点である.そこで本稿では,上述した二点を考慮した上で,相補的な識別器の生成手法と,その統合手法について検討を行う.相補的な識別器を生成するにあたっては,Heteroscedastic linear discriminant analysis (HLDA)に基づく特徴変換の過程でブースティングの枠組を適用した.また,統合においては,各々の識別器から出力される尤度の情報を特徴ベクトルとし,このベクトルが張る空間上でSupport vector machine (SVM)に基づくパターン認識を行った.提案手法により識別器を統合することで,孤立単語音声認識実験において,統合前と比較し74%の誤りが削減されることがわかった.
著者
小林 哲則 中川 聖一 菊池 英明 白井 克彦 匂坂 芳典 甲斐 充彦
出版者
早稲田大学
雑誌
特定領域研究
巻号頁・発行日
2000

今年度の成果は以下の通りである。a)対話のリズムと韻律制御前年度までの成果に基づいて、対話における話題境界の判別を題材に、韻律情報におけるアクセント句単位でのパラメータを用いて統計的なモデルを学習し、オープンデータに対しても人間と同程度の判別精度が得られることを確認した。(白井・菊池)自然な対話システムを構築する上で重要なシステム側の相槌生成と話者交替のタイミングの決定を、韻律情報と表層的言語情報を用いて行う方法を開発した。この決定法を、実際に天気予報を題材にした雑談対話システムに実装し、被験者がシステムと対話することにより主観的な評価を行い、有用性を確認した。(中川)b)対話音声理解応用対話音声における繰り返しの訂正発話に関する特徴の統計的な分析結果を踏まえ、フレーズ単位の韻律的特徴の併用と訂正発話検出への適用を評価した。また、これらと併せた頑健な対話音声理解のため、フィラーの韻律的な特徴分析・モデル化の検討を行った。(甲斐)c)対話音声合成応用語彙の韻律的有標性について程度の副詞を用い、生成・聴覚の両面から分析を行い、自然な会話音声生成のための韻律的強勢制御を実現した。また、統計的計算モデルによる話速制御モデルを作成し、会話音声にみられる局所話速の分析を進め、自由な話速の制御を可能とした。さらに、韻律制御パラメータが合成音声の自然性品質に及ぼす影響を調べた。(匂坂)d)対話システム上記の成果をまとめ,対話システムを実装した。特に,顔表情の認識・生成システム,声表情の認識・生成システムなどを前年度までに開発した対話プラットホーム上に統合し,パラ言語情報の授受を可能とするリズムある対話システムを構築した。(小林)
著者
久保 陽太郎 渡部 晋治 中村 篤 小林 哲則
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.8, pp.1-6, 2010-02-05

識別学習は,デコーダの出力する認識仮説と比較して正解ラベルの尤度を相対的に高めることで識別に特化したモデルを得るための手法であるが,経験的に過学習しやすいことが知られている.近年,音響モデルの識別学習において過学習を軽減するため,最小相対エントロピー識別が音響モデルの識別学習に導入されてきた.この手法ではパラメタ推定の不確実性をパラメタ分布によって表現することで適切に取り扱うことを可能としており過学習に強いと考えられるが,従来の実現法では大量の認識仮説,および大量のトレーニングデータを取り扱うには膨大な量の計算を単一のコンピュータで実行しなければならなかった.そこで,本研究では,ラティス型認識仮説表現を導入することで認識仮説の数に対する計算効率を,また勾配法に基づく並列化可能な最適化法を導入することでトレーニングデータの数に対する並列計算効率を向上させた.提案法を用いることで,最小相対エントロピー識別学習に必要なステップのほぼ全てがグリッドコンピュータのような並列計算環境で実現可能になり,また,従来の N-best に基づく認識仮説表現では表現しきれないような膨大な数の認識仮説に対する最適化が行なえるようになった.In order to improve the performance of automatic speech recognition, discriminative training methods are introduced for training processes of acoustic models in speech recognizers. Recently, minimum relative entropy discrimination (MRED) training of acoustic models is introduced in order to prevent overfitting problems in discriminative training methods by representing parameters as random variables. Despite of these advantages, the conventional implementation of MRED lacks scalability to the amount of training dataset and the number of the hypothesis label sequences obtained from decoders. In this study, we attempt to improve scalability of MRED training. The lattice-based representations of the hypothesis label sequences are introduced in order to improve scalability due to the number of the hypothesis label sequences. Further, the gradient-based optimization method is introduced in order to ensure parallelism in the MRED training method. By incorpolating proposed methods, it is confirmed that the MRED training procedure can now be performed in parallel computing environments such as grid computers. Furthremore, the large number of the hypothesis label sequences can be handled in the MRED by using hypothesis lattices obtained from decoders.
著者
藤江 真也 江尻 康 菊池 英明 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.3, pp.489-498, 2005-03-01
参考文献数
20
被引用文献数
14

音声による人間同士の対話は, 発話に含まれる言語情報に加え, 発話者の心的状態や対話調整的情報が韻律や顔表情, 頭部動作によって付加的に表現されることで円滑に進む.これら, 発話に付随して生起し, 言語情報の円滑な伝達を補助する情報をパラ言語情報と呼ぶ.本論文では, パラ言語情報として, 韻律と頭部ジェスチャに現れる発話者の発話態度を取り上げ, それぞれの認識手法を提案するとともにそれらを活用した対話ロボットを実現する.韻律による発話態度の認識は, 態度が肯定的か否定的かを, F_0パターンと音素の継続長を用いて識別する.頭部ジェスチャによる認識は, 肯定的動作をうなずき, 否定的動作をかしげと首振りとして定め, これら三つの動作をオプティカルフローを特徴量としHMMを確率モデルとして用いることによって認識する.実験により, これらの手法が人と同等の認識能力をもつことを示すとともに, これらを組み込んだ対話ロボットが従来にないリズムある効率的な対話を実現することを示す.
著者
松山 洋一 藤江 真也 齋藤 彰宏 XU Yushi 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. WIT, 福祉情報工学 (ISSN:09135685)
巻号頁・発行日
vol.110, no.221, pp.7-12, 2010-10-01

通所介護施設において,人同士の会話に介在させ,コミュニケーションを活性化するロボットについて報告する.本研究では,具体的なタスクとして高齢者通所施設で行われている難読ゲームを取り上げる.難読ゲームは,司会者の存在する複数人対話の一形態だと考えることができる.ここでロボットは,複数人会話における制約を満たしながら,会話を活性化させるための行動選択を行う必要がある.本論文では,既に人同士で行われているコミュニケーションを妨害せずに活性化を実現するため,会話における参加者の役割や,参加者間が共有する話題を推定しながら,様々な場面において適した行動を取るフレームワークを提案する.
著者
小林 哲則 藤江 真也 小川 哲司 高西 敦夫 松山 洋一 岩田 和彦
出版者
早稲田大学
雑誌
基盤研究(B)
巻号頁・発行日
2008

言語・パラ言語の生成・理解処理を高度化することで,複数の人間と自然なリズムで会話できるコミュニケーションロボットを実現した.また,このロボットを用いて,人同士の会話を活性化することを試みた.この目的のため,ロボットへの性格付与とパラ言語表現機能を考慮したロボットハードウェア,会話状況に沿うロボットの振る舞い,魅力ある会話の進行方式などを設計した.また,ロボットの聴覚機能および発話方式の高度化についても検討した.
著者
河原 達也 李 晃伸 小林 哲則 武田 一哉 峯松 信明 伊藤 克亘 伊藤 彰則 山本 幹雄 山田 篤 宇津呂 武仁 鹿野 清宏
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.55, no.3, pp.175-180, 1999-03-01
被引用文献数
39

「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。
著者
北山 広治 後藤 真孝 伊藤 克亘 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.58, pp.67-72, 2003-05-27
被引用文献数
5

本稿では,非言語情報の一つである言い淀み(有声休止)を活用し,ユーザが音声認識を開始してほしいタイミング(発話区間の始端)を,言い淀むことによって明示的に指示できる「音声スタータ」という新しい音声インタフェースを提案する.通常の音声認識システムは,発話区間の切り出し後に音声認識を行うため,雑音下での切り出しミスが認識精度に悪影響を与え,頑健性を保証することが困難であった.我々は,有声休止が雑音下でも頑健に検出できると考え,常に有声休止の途中から音声認識を開始することで,信頼性の高い発話区間の検出方法を実現することを試みる.様々な雑音環境下で4種類の発話区間検出方法を比較実験した結果,音声スタータは他の検出方法に比べ,特に低SNR(10dB以下)の条件で高い性能が得られた.In this paper we propose a speech interface function, called speech starter, that enables noise-robust endpoint (utterance) detection for speech recognition. When current speech recognizers are used in a noisy environment, a typical recognition error is caused by incorrect endpoints because their automatic detection is likely to be disturbed by non-stationary noises. The speech starter function enables a user to specify the beginning of each utterance by uttering a filler with a filled pause, which is used as a trigger to start speech-recognition processes. Since filled pauses can be detected robustly in a noisy environment, reliable endpoint detection is achieved. Experimental results from a 10-dB-SNR noisy environment show that the recognition error rate with speech starter was lower than with conventional endpoint-detection methods.
著者
中野 鐵兵 佐々木 浩 藤江 真也 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.46, pp.77-84, 2008-05-15
被引用文献数
5

音声・言語アプリケーションにおける従来の語彙情報作成手法の問題点を解決するため,集合知を利用した語彙情報の収集・共有・管理システムを提案する.具体的には,語彙情報を集中管理するためのオンラインデータベースシステムを構築し,それを利用者に公開する.提案システムでは,Web 資源からの語彙情報の自動収集の枠組みを備え,データの集約を図る.また,アプリケーション用語彙の新規作成から,その継続的な更新まで包括的な解法を提供し,これまで各々の開発者がアプリケーション毎に用意していた語彙定義のプロセスの一元化を図る.さらに,インタフェースを広く公開し,アプリケーション間の語彙定義の共有や,アプリケーションで使用する語彙の自動更新のサポートを図る.本稿では,実際に提案システムの実装として開発されたプロトタイプシステムと,提案システムによって実際に有効な語彙リストの生成が可能である事を示した評価実験について述べる.In order to solve the problems of the conventional approach of designing lexicons, we propose a new approach: using a lexical data collection, sharing, and management system using collective intelligence. In particular, we construct and operate a new online database system for lexical informations. The proposed system is designed as a data intensive system so that it can collect lexical information from all web-based resources. Also, the system provides the comprehensive solution of designing lexicons so that the designing processes of lexicons can be standardized. Besides, the system interface is published so that lexical informations are shared by many applications. In this paper, the prototype system developed based on the proposed approach and the feasibility test for designing lexicons are described. The assessment result showed that the proper lexicons can be generated from the proposed system.
著者
久保田 千太郎 松坂 要佐 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.99, no.708, pp.49-56, 2000-03-17
被引用文献数
2

ロバストかつ高精度・高速な顔画像処理システムを実現し, これを対話ロボットに組み込んでグループ会話を実現した.グループ会話とは, 複数の話者を同時に相手にする対話形態である.グループ会話に円滑に参与するためには, 発話者が誰であるか, および発話が誰に向けられているか等の, 対話の状況を把握する必要がある.この目的には, 顔向きや個人の認識を行なう画像処理が重要な役割を演じる.この際, 画像処理システムには, 環境変化にロバストであることや, 高精度でかつ実時間処理に適していることが必要とされる.本研究では, 前者には顔領域を抽出する手掛かりとなる肌色尤度モデルを逐次更新することで, また後者にはパターン認識に適した高精度情報圧縮を実現する独立成分分析を適用することで達成した.この画像処理システムにより, グループ会話に必要な状況把握が可能となり, 自然なグループ会話の実現に貢献することを確認した.