著者
奥乃 博 中臺 一博 駒谷 和範
出版者
京都大学
雑誌
特定領域研究
巻号頁・発行日
2003

ヒューマノイドと人間との柔軟なコミュニケーションのために,混合音を聞き分け理解する機能を設計することを目的としている.平成15年度は,前年度開発をした方向情報や話者情報などの複数のレベルで視覚と聴覚を統合したアクティブ方向通過型フィルタ(ADPF)の高性能化,及び,ADPFを使用した音源分離システムと音声認識システムのインタフェース化を行い,簡単な3話者同時発話認識を,複数のロボット上に実現した.また,日本ロボット学会に「ロボット聴覚」研究専門委員会を設立した.(1)アクティブ方向通過型フィルタ(ADPF)の散乱理論による高性能化:画像と音から得られる話者の方向情報を基に,特定の方向からの音を分離するADPFでは,2本のマイクロフォンで得られる入力音から求めた両耳間位相差と両耳間強度差を用いて方向情報を得ていた.聴覚エピポーラ幾何に加えて散乱理論により頭部音響伝達関数の近似精度を向上させた結果,30度以上の周辺領域で音源定位と音源分離性能を大幅に向上させることができた.さらに,2種類のヒューマノイドロボット,SIG2とReplieに実装し,本手法の一般性を確認した.(2)3話者同時発話認識(聖徳太子ロボットの予備実験):昨年5月に放映された「鉄腕アトムを作る」(NHK)では方向と話者に依存した音響モデルを使用し3話者同時発話認識を行っていた.ADFPで得られる分離音は,周波数成分での特徴量が欠け,時間成分でのデータも喪失しているので,単一の音響モデルで済ませるために,ミッシングフィーチャ理論に基づいた音声認識システムを開発し,演繹ミッシングマスクにより,分離音の認識精度が大幅に向上することを確認した.(3)音一般の認識と対話システムへの展開:音声を用いた柔軟な対話システム構築のために,音声認識誤りに確信度を導入し,不要な問い合わせを解消する方法を開発した.また,非音声認識のために,楽器音認識と擬音語認識にも取り組み,単音について認識技法を確立した.
著者
奥乃 博 京田耕司 中臺 一博 北野 宏明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2000, no.23, pp.116-124, 2000-03-02

Beowulrクラスクラスタは,PCクラスタの論理構成法であり,コモディティハードウェアやソフトウェアによりPCクラスタが容易に構築できる.しかし,それらの組合せによってはうまく動かなかったり,あるいは,性能が全く出ないということがある.本稿では,Beowulfクラスクラスタのチューニングを(1)ネットワーク,(2)プロセッサ間通信ライブラリ(MPIやPVM),(3)応用プログラム,という3つのレベルで分けて,行うことを提案する.具体的には,NetPIPEというネットワーク測定用ツールを用いて,(1)と(2)をチューニングする.次に,線形代数でよく使われるLINPACKの一つScaLAPACKを応用プログラムとして利用し,(1)と(2)から得られたネットワーク特性を用いて,ScaLAPACKのチューニングを行う.とくに,小さな行列に分割することと,最適化された線形代数パッケージを使用することが,ScaLAPACKの性能向上に不可欠であることが判明した.これらの知見を利用することにより,Pentium-II 450 MHz,256 MByteメモリのノード32台で構成されるERATO-1に本手法を適用した結果,ハードウェアの不具合いが発見でき,また,LINPACKベンチマークで6.76GFlopsの性能が得られた.Beowulf-Class cluster is a logical organization of PC clusters composed of mass-market off-the-shelf hardware and software. The user may have problems that their implementation won't work well in hardware level or their implementation provides quite a poor performance. In this paper, we present a new method to tune and evaluation of the Beowulf-Class cluter by focusing on three levels: (1) network level, (2) message passing system level (e.g., MPI, PVM), and (3) application level. The first two performance is measured by NetPIPE developed by Ames Lab. ScaLAPACK (parallel version of LINPACK) is used as benchmarks for application programs, because it is one of the most common linear algebra subprograms and its evaluation is beneficial for numerical computation users. ScaLAPACK is tuned by using parameters determined by NetPIPE. ERATO-1 Beowulf-class cluster, 32 nodes of Pentium-II 450HHz processor with 256MByte of memory, is tuned by the proposed method. First, a network interface card installed in each ERATO-1 node is indentified as the cause of poor performance and finally ERATO-1 attained 6.76 GFlops with LINPACK benchmark.
著者
神田 直之 駒谷 和範 中野 幹生 中臺 一博 辻野 広司 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.55-60, 2006-02-04
被引用文献数
4

複数のドメインを扱う音声対話システムにおいて,対話の文脈や進行に関する特徴量を導入してより精度よくドメイン選択を行う手法を開発したので報告する.本稿ではドメイン選択問題を,応答すべきドメインが,(I)ひとつ前の応答を行ったドメイン,(II)音声認識結果に対する最尤のドメイン,(III)それ以外のいずれかのドメイン,のどれに該当するかを判別する問題と捉える.ドメイン選択の正解を与えた対話データから,対話の文脈や進行に関する特徴量を用いて上記を判別する決定木を学習することにより,ドメイン選択器を構成した.5ドメインのマルチドメイン音声対話システムを用いた10名の被験者による評価実験の結果,音声認識尤度に基づく従来のドメイン選択手法に比べ,ドメイン選択誤りが11.6%削減された.We have developed a robust domain selection method using dialogue history in multi-domain spoken dialogue systems. We define domain selection as classifying problem among (I) the domain in the previous turn, (II) the domain in which N-best speech recognition results can be accepted with the highest recognition score, (III) other domains. We constructed a classifier by decision tree learning with dialogue corpus. The experimental result using 10 subjects shows that our method could reduced 11.6% domain selection error, compared with a conventional method using speech recognition likelihoods only.