著者
桃崎浩平 原 義幸 正井 康之 松浦 博 新田 恒雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.16, pp.21-26, 1997-02-07

パーソナルコンピュータの高速化とオーディオチップの標準搭載により,音声合成・認識機能がソフトウェアだけで実現できるようになった.これにともなって,音声を利用したアプリケーションソフトウェアが容易に開発できるような環境が整いつつある.本文では,標準APIの一つである米マイクロソフト社のSAPIを中心に紹介するとともに,OCXを用いる応用ソフトウェア開発について解説する.Contemporary PCs provide sufficient computer power to accommodate Text-to-Speech(TTS) and Speech Recognition(SR) with no additional hardware. On the other hand, the environment for developing speech application software still remains in a big issue. In this paper, we first explain the Microsoft Speech API, as one of the standard APIs for speech technologies, and then present some examples of applocation software using SAPI and speech OCX.
著者
新田 恒雄 神尾 広幸 雨宮 美香 松浦 博 内山 ありさ 田村 正文
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.73, pp.29-34, 1995-07-20
被引用文献数
8

マルチモーダルUI (U)の設計?評価を短期間に行うラピッドプロトタイピング開発環境について述べる。開発環境は、MUI設計支援エディタMuse、UIScript変換、およびマルチモーダル対話プラットホームMultiksDialのツール群からなり、Museで作成したMUIを中間言語(IScrip)を介してcode?dataに変換した後、マルチモーダル対話プラットホームMultiksDialの上で実際に操作・評価することができる。Museでは各UI?Object(ボタン/音声認識/センサなどの入力オブジェクト,イメージ部品/テキスト部品/録音合成/規則合成などの出力オブジェクト)のプロパティ設定をdialogue boxを利用して簡単に行えるようになっている。ラピッドプロトタイピング開発環境の整備により、様々なタスクを対象に短期間にMUIを試作・評価することが可能である。In recent years, we have developed various types of multimodal dialogue systems, including a ticket vendor, an ATM, and an information kiosk. Because the designing of multimodal user-interface (MUI) is more complicated than that of existing UI based on graphical UI (GUI) and has not obtained its regular method yet, the development of a multimodal dialogue system requires a long span of time. Through the experience on iterative design of the above mentioned applications, we came to think of the importance of the rapid-prototyping of multimodal dialogue systems for collecting data systematically over various types of application areas. In this paper, we describe a platform of multimodal dialogue systems and rapid-prototyping by using a multimodal UI design support tool with which system developers can design panels, set properties of input/output channels, describe plan-goal scenarios, and evaluate multi modal UI easily.