著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
安藤 和敏 伊藤 公人 甲斐 充彦 前田 恭伸 関谷 和之
出版者
公益社団法人日本オペレーションズ・リサーチ学会
雑誌
オペレーションズ・リサーチ : 経営の科学 (ISSN:00303674)
巻号頁・発行日
vol.57, no.6, pp.315-321, 2012-06-01

静岡大学工学部システム工学科で開講している授業科目「プログラムコンテスト」において,敢闘賞の決定を最短距離DEAによって行った.プログラムコンテストはグループで協調して自発的に学習に取り組むProblem Based Learningの1つであり,コンテスト形式は各グループが互いに競争して研鑽する仕掛けの1つである.競争の前提として,グループの能力が均一であることが望まれるが,グループ編成の実務上では実現困難である.どのグループも質の高いグループ活動を最後まで持続しコンテストに意欲的に参加することを期待し,2011年度から「敢闘賞」を新設した.新設の経緯と「敢闘賞」決定に用いたDEA,そしてその評価結果を報告する.
著者
甲斐 充彦 廣瀬 良文 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.4, pp.1383-1394, 1999-04-15
被引用文献数
39

対話音声認識システムや大語彙のディクテーションシステムにおいては システムの辞書に登録されていない未知語や 間投詞・言い直し・言い淀みなどのユーザの要求に関係のない冗長語の扱いが重要である. このような問題に対処するために 本研究では単語N-gram言語モデルを用いた連続音声認識アルゴリズムにおいて 未知語処理を導入してその効果を調べた. 未知語処理法として サブワード単位の音響モデルを用いたサブワード系列デコーダを併用し これによって未知語候補の生成と検証を行う方法を用いる. この方法は 以前に文脈自由文法を用いたシステムにおいて有効性を確かめている. 本論文では この方法に基づいて 単語N-gramベースの認識アルゴリズムに未知語処理を効率的に導入する方法を提案している. 音声対話システムのタスクにおいて 未知語や冗長語を含む発話を用いて評価実験を行った結果 意味的な誤りが最大で48%減少した. また 文脈自由文法に基づく同様なシステムと比較した結果 意味理解精度の向上に効果があることが分がった. さらに 大語彙連続音声認識タスクにおける効果を確かめるため 新聞記事の読み上げ音声を用いた評価実験を行った結果 単語単位での認識精度の改善は小さいが 文レベルでの高い未知語検出性能が示された.For practical use of spoken dialog systems and dictation systems, it is important to cope with out-of-vocabulary words and filled pauses including the phenomena such as interjection, restart and hesitation. To address these problems, this study tries to use an unknown-word processing (UWP) method for a word N-gram language model based continuous speech recognition system. We investigate an UWP method which employs a subword sequence decoder with subword acoustic models to produce unknown-word hypotheses. This method has been shown to be effective on a small vocabulary task tested with a context-free grammar-based recognition system. This paper proposes an efficient method for incorporating the UWP into a word N-gram language model-based recognition system. We performed a series of experiments to show the effectiveness of the method for spoken dialog tasks and a dictation task. The experimental results show that a semantic accuracy was improved by 48% using the UWP method. Also, in compared with the result of a system using context-free grammar, the word N-gram based system could further improve the semantic accuracy for spontaneous speech. Furthermore, We performed are cognition experiment for a large-vocabulary dictation task. As a result, although only a slight improvement was observed in terms of the word accuracy, the high performance for detecting the existence of unknown-word in an utterance could be achieved.
著者
藤原 敬記 伊藤 敏彦 荒木 健治 甲斐 充彦 小西 達裕 伊東 幸宏
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.7, pp.1493-1503, 2006-07-01
参考文献数
24
被引用文献数
9

実環境での音声対話システムの使用において,誤認識を回避することは難しい.誤認識が起きると,システムはユーザの期待する応答とかけ離れた応答を行い,対話がスムーズに進まなくなることも多い.そこで本研究では,音声認識器が誤認識した場合でも,認識信頼度と対話履歴を用いることで正しくユーザの意図を推定することができる音声言語理解手法を提案する.これは,音声認識器が誤認識した場合でも多くの場合,複数候補(N-best)中に正解が含まれていること,システムが誤認識した場合にはユーザは大体訂正反応を示すこと,タスク指向対話には強い一貫性がありユーザは基本的に意味的・文脈的に関係した内容以外を発話しないことを利用する.また,提案手法ではあらかじめすべての認識可能単語を理解候補として保持し,言語理解部の対話戦略において音声認識結果中の単語との意味的関連性などを考慮している.これにより音声認識結果のN-best中に正解の一部が含まれていない場合でも,複数のユーザ発話の認識結果に基づくことで正しい意図を推定することが可能となっている.評価データにおいて,提案手法における対話単位での理解率は72.2%(21,430/29,670対話),単語単位での理解率は87.1%(77,544/89,010単語)であり,従来手法の最新認識結果の上位候補を優先するシステムの57.9% (17,178/29,670対話),75.4%(67,084/89,010単語)と比較しても有効である.
著者
赤羽 慎 藤田 侑介 王 龍標 甲斐 充彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.114, no.52, pp.99-104, 2014-05-24

近年IT技術の発展により,デジタル音楽は様々なメディアから入手可能となった.その音楽の量は膨大であるため,何らかの手がかりにより効率的に音楽にアクセスすることが必要である.それは音楽情報検索(MIR)により実現することができる.本研究ではMIRのタスクの一つである楽曲のジャンル分類に関して取り扱う.ジャンル分類は,デジタル化された楽曲データの音情報から特徴量を抽出し,あらかじめジャンルのタグ付けされた事例データから識別器を構築することで実現できる.音声認識において有効な特徴量は通常,10-100[ms]程のフレームから抽出されるため,音楽の短期的な性質しか捉えることが\できない.音楽に使われている楽器などの情報を得るためには,音楽をもっと長期的なスパンで捉えることが必要である.先行研究[1],[3]では,統計量に基づく楽曲レベル特徴量を用いることで音楽を長期的に捉える事を試みている.本研究では,フレームより長い楽曲より短いセグメントレベルの特徴量を用いた楽曲ジャンル推定方法を提案する.
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
小林 哲則 中川 聖一 菊池 英明 白井 克彦 匂坂 芳典 甲斐 充彦
出版者
早稲田大学
雑誌
特定領域研究
巻号頁・発行日
2000

今年度の成果は以下の通りである。a)対話のリズムと韻律制御前年度までの成果に基づいて、対話における話題境界の判別を題材に、韻律情報におけるアクセント句単位でのパラメータを用いて統計的なモデルを学習し、オープンデータに対しても人間と同程度の判別精度が得られることを確認した。(白井・菊池)自然な対話システムを構築する上で重要なシステム側の相槌生成と話者交替のタイミングの決定を、韻律情報と表層的言語情報を用いて行う方法を開発した。この決定法を、実際に天気予報を題材にした雑談対話システムに実装し、被験者がシステムと対話することにより主観的な評価を行い、有用性を確認した。(中川)b)対話音声理解応用対話音声における繰り返しの訂正発話に関する特徴の統計的な分析結果を踏まえ、フレーズ単位の韻律的特徴の併用と訂正発話検出への適用を評価した。また、これらと併せた頑健な対話音声理解のため、フィラーの韻律的な特徴分析・モデル化の検討を行った。(甲斐)c)対話音声合成応用語彙の韻律的有標性について程度の副詞を用い、生成・聴覚の両面から分析を行い、自然な会話音声生成のための韻律的強勢制御を実現した。また、統計的計算モデルによる話速制御モデルを作成し、会話音声にみられる局所話速の分析を進め、自由な話速の制御を可能とした。さらに、韻律制御パラメータが合成音声の自然性品質に及ぼす影響を調べた。(匂坂)d)対話システム上記の成果をまとめ,対話システムを実装した。特に,顔表情の認識・生成システム,声表情の認識・生成システムなどを前年度までに開発した対話プラットホーム上に統合し,パラ言語情報の授受を可能とするリズムある対話システムを構築した。(小林)
著者
甲斐 充彦 中野 崇広 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.12, pp.81-86, 1998-02-05
被引用文献数
15

近年、wwwブラウザは携帯情報端末などをはじめ、様々な用途・環境で用いられつつある。そこで、音声入力を用いたWWWブラウザ操作システムを試作し、音声による効率的な操作の実現方法について検討した。本システムは、閲覧中のホームベージ文書中のリンクに対応しているキーワードやその一部の発話により、リンク先へのジャンプをはじめとするWWWブラウザの操作を実現した。ユーザが発話する可能性があるキーワード断片をHTMLテキストの形態素解析結果を用いて抽出すると同時に、文書構造も含めたキーワードの指定を許すような言語制約を自動生成するようにした。本システムは、ユーザが種々の計算機環境で利用できることを想定し、ネットワークベースで動作する音声認識サーバを用いてクライアント・サーバ構成で実装し、ユーザが比較的容易に利用できるWWWブラウザの音声操作システムを実現した。Recently, the WWW browser has been used by many kinds of people and with various computational environments such as the personal digital assistant. In this study, we developed a voice-operating WWW browser and investigated the methods which make the best use of the property of speech for operating a WWW browser. Our system allows a user to utter a voice command for jumping to a desired link without using a keyboard and/or mouse. The user only need to utter a keyword or its fragment which corresponds to the desired link. The keywords are dynamically extracted from a HTML file on a last-specified URL and their meaningful fragments from the output of a Japanese morpheme analyzer are added to the system's lexicon. Some additional expressions for specifying keywords are automatically added by using the structural information of a HTML document. This system is implemented by a client-server architecture and thus a user can effectively use this system on standard PCs.
著者
水野 智士 高木 浩吉 小暮 悟 伊藤 敏彦 甲斐 充彦 小西 達裕 伊東 幸宏
出版者
情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.12, pp.77-82, 2005-02-05
被引用文献数
5

近年の音声認識、言語理解技術、及びコンピュータ性能の向上によって、音声を用いるインタフェースやタスク指向型の対話システムが利用されるようになってきた。そんな中で、より一般的にシステムが利用されるようになるには、より頑健な言語理解が必要となる。本稿では、より頑健な意味理解を実現するために、音声認識信頼と対話履歴を利用して、ユーザ発話意図の推定を行う手法について記述する。本研究では、言語理解の頑健さを向上させるために、対話履歴において、県名や市町村名など、どのカテゴリについての発話がされたのかを識別する。その識別結果と、認識結果のn-bestを利用して言語理解結果を生成する。これを実現する場合、カテゴリ識別の精度がそのまま言語理解精度に影響する。そこで、ユーザの発話意図を推定することで、カテゴリ識別精度の向上を図り言語理解精度向上を目指した。評価実験を行い、音声認識の1-bestをそのまま利用する言語理解手法よりも提案手法のほうが、言語理解精度が高くなることを示した。The spoken dialogue interface and the task oriented dialogue system has come to be used by improving the speech recognition, the language understanding technologies, and the computer performance. We need a more robust language understanding for the system to come to be used more generally. Our paper deals with speech intent presumption method using the confidence score of speech recognition and dialogue history for robust meaning understanding. This language understanding results are generated by using the speech recognition results (n-best) and the identification results. Thus, the accuracy of the category identification influences the language understanding accuracy. Then, we used the presumption of user's speech intention in order to improve the language understanding accuracy. As the result of evaluation experiment, we show that the language understanding performance used our proposed method is higher than the language understanding method which simply gives priority to the first hypothesis of a n-best.
著者
由浅 裕規 水野 智士 伊藤 敏彦 甲斐 充彦 小西 達裕 伊東 幸宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.519, pp.199-204, 2003-12-11
被引用文献数
1

本稿では,状況及び文脈を利用した言語理解手法をもつ音声対話システムの構築と,その有効性を示すための評価実験について述べる.システムに対する発話方法を「対象を操作」,又は嘱性は値」という文体に制限することで認識率の向上を図り,また一入力だけでなく連続的に複数の入力を一発話で行えるようにシステムを構築した.タスクとしてはエアコン・カーステレオの操作を想定し,その音声インタフェースという具体的な状況設定において,被験者20名による評価実験を行った.対話の分析を行うことによって,状況及び文脈を利用した言語理解の有効性,制限された発話方法における言語的な特徴や複数設定発話に関するユーザ意識など,様々な知見を得ることができた.