- 著者
-
嶋 和明
本間 健
池下 林太郎
小窪 浩明
大淵 康成
佘 錦華
- 出版者
- The Institute of Electronics, Information and Communication Engineers
- 雑誌
- 電子情報通信学会論文誌 D (ISSN:18804535)
- 巻号頁・発行日
- vol.J101-D, no.2, pp.446-455, 2018-02-01
電子機器の音声入力操作が一般的になった.音声入力操作に必要となる言語理解器開発のためのコーパスは,主にWOZで収集されてきた.WOZは,人が機械に話すときに見られる簡潔な発話スタイルの収集に向く.しかし,ユーザは,言語理解に優れる機械と対話するなかで,多様な発話をするように変化すると予測される.本研究は,機械相手の簡潔な発話だけでなく将来起こりうる多様な発話も収集することを目的とし,インタビューによるコーパス収集法を提案する.具体的には,カーナビをターゲットとして,質問者から回答者にカーナビに何と言うか質問し,回答を得る.回答者には,機械向けの発話収集であり,かつ機械は進化しているため発話の制限がないことを教示する.インタビューで得たコーパスと現製品の発話ログデータ(製品ログ)を比較したところ,コーパスが一発話あたり11.7%多く形態素を含み,多様な発話を収集できたことを確認した.また,現製品の言語理解用データとしての有用性を調べるため,コーパス,製品ログ,両者混合の3パターンで学習させた言語理解器を構築し,評価した結果,両者混合学習で最高精度となり,有用性を確認した.