著者
伊藤 敏彦 小暮 悟 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.39, no.5, pp.1248-1257, 1998-05-15
被引用文献数
22

自然言語による音声対話システムにおいては,システムがユーザと協調的に対話を進めていくことは重要である.この考えを基に我々は音声対話システムにおける協調的応答生成システムを開発した.応答生成システムは対話制御部,問題解決器,知識データベース,応答文生成部から構成され,対話システムの意味理解システムによって生成された意味表現を受け取り,可能なかぎり協調的応答をする.たとえば,ユーザの質問文に検索に必要な情報を含まれていなかったり,検索結果の数が多い場合などはユーザへの質問を行う.また,ユーザの望む検索結果が得られなかった場合,それに代わる代案を提案する.本論文では音声対話システムの評価実験であげられたいくつかの応答生成システムの問題点を改良し,ユーザの対話の焦点を抽出し,協調的な応答を行う応答機能を持った応答生成システムについて述べる.また,「システムの使い勝手の良さ」が協調的応答生成の導入によってどのように向上するのかに着目して行った評価実験について述べる.We have developed a robust dialogue system which aids users in information retrieval through spontaneous speech.Dialog system through natural language must be designed so that it can cooperatively response to users.Based on this consideration,we developed a cooperative response generator in the dialogue system.The response generator is composed of dialog manager,problem solver,knowledge databases,and response sentence generator.The response generator receives a semantic representation (that is,semantic network) which the interpreter builds for the user's utterance and generates as cooperative response sentences as possible.For example,if a user's query doesn't have enough conditions/information to answer the question by the system,and if there are many information retrieval candidates from the knowledge database for user's question,the dialog manger queries the user to get necessary conditions and to select the information.Further,if the system can't retrieve any information related to the user's question,the generator proposes an alternative plan.And evaluation experiments are described how the above improvement increses "convenience of the system".
著者
中川 聖一 大谷耕嗣
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1997, no.52, pp.13-18, 1997-05-26
被引用文献数
1

一般に話し言葉の文法の構築は難しい。大量のテキスト文集合がある場合には、n?gramが適切である。しかし、比較的小規模なタスクやユーザが容易に設計したいタスクでは文脈自由文法 (F) が適切である。本稿では文のカバー率を改善するために、n?gramとCFGの利点を取り入れた文法規則の自動学習法について述る。学習方法は、システムに入力された文が文法規則が不備なために受理できない時、システムがこの入力文を使って単語クラスペアやバイグラムの学習することによって実行する。この単語クラスペアやバイグラムの適用方法を変えたいくつかの実験をテキストと音声認識で行ない、文法学習による解析 (認識) 文数の向上及びパープレキシティの変化について調べた。In this paper, we describe an automatic learning method of the grammar rules for improving coverage of acceptable sentences. The learning method is carried out by a sentence which is not accepted by production rules. The system learns wordclass pairs or bigram using this input sentence. We experimented on some strategies of applying wordclass pairs on text parsing and speech recogniton level, and evaluated the coverage of acceptable sentences (or speech recognition rate) and perplexity using above methods.
著者
三輪 多恵子 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.744, pp.51-58, 2002-03-21
参考文献数
10
被引用文献数
2

筆者らは,英語音声の韻律的な特徴に着目し,英語らしさを判別するために有効な韻律パラメータについて検討を行なっている.本研究では,ネイティブ英語音声と日本人英語音声から韻律情報を抽出し,その韻律情報のみを保存した合成音に対する聴取実験を行なうことで,各音声の英語らしさに対して点数付けを行なう.また,各音声のF0とパワーの分散,発話時間長,強勢の周期性等を算出し,日本人英語音声の練習前後のスコアの変化と算出した各値の変化とを比較することで,英語らしさに関係する韻律パラメータを明らかにする.さらに,上記の韻律パラメータと英語らしさの評価点の関係から,英語らしさを自動判別するための線形モデルを作成し,本方式の妥当性を検証する.
著者
趙 力 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.95, no.123, pp.9-16, 1995-06-23
被引用文献数
8

本稿では,中国語連続音声の認識と理解を目標とし,日本語連続音声認識システムSPOJUS-SYNOに基づいた中国語連続音声認識システムの構築について報告する。本システムのタスクとしては中国語ホテル予約システムに関するものであり、語彙数は190単語である。利用した日本語連続音声認識システム(SPOJUS-SYNO・X)はOne Pass DP法をベースにトップダウン型の構文解析法を統合したフレーム同期型の認識アルゴリズムを採用している。認識に用いるHMMは、60個の中国語音素単位に対応した60個の単一連続分布(全共分散行列使用)の離散継続時間制御HMM(DDCHMM)で、構文知識を表わしている文脈自由文法(CFG)は非終端記号数27、ワードクラス数(文法的に等価な終端記号の集合)53、書換規則数80からなっている。中国語ホテル予約タスクの認識対象53文についてのテストセットパープレキシティは26.1である。評価実験では、2名の話者が中国語ホテル予約タスクの認識対象53文について認識実験を行なった結果、平均68.9%の文認識率が得られた。また、O(n)DPによって適応化用文(50文)と評価用文(53文)でそれぞれ初期モデルと適応化したモデルを評価した。これらの結果から、この中国語音声認識システムの有効性を確認した。
著者
北岡 教英 押川 洋徳 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.496, pp.31-36, 2005-12-15
被引用文献数
3

本稿では, 高頻度単語と短い単語(基本単語)を併用した音声認識を用いた組織名入力インタフェースを提案する.これは, まず音声で組織名を入力し, 音声認識の結果得られた複数の単語・基本単語候補から, ペンタッチで選択, 入力するマルチモーダルインタフェースである.組織名といった語彙サイズが大きく, 常に新しい組織名が生み出されるため, すべてを登録することが難しく, また音声認識が難しいタスクに対し, 単語認識と連続基本単語認識を併用するもので, 認識対象のカバー率と認識性能, 入力効率の両方の向上を図った.そして, その認識結果から単語・基本単語系列候補, 基本単語候補をタッチパネルに表示し, ペンタッチにより簡単に選択して入力が可能な組織名入力インタフェースを考案した.この高頻度単語と基本単語を併用した音声認識をオフラインの認識実験により評価したところ, それぞれ単独での音声認識結果より良い結果が得られた.さらにこの認識結果に基づいてインタフェースを用いた場合の入力可能な割合をシミュレーションすると, 約92%で入力が可能となることが分かった.また, このインタフェースを実装してオンラインで被験者実験を行ったところ, 音声認識性能の低下で1回の発声では83.3%の入力可能率となったが, 2回まで音声入力を許すことで93.3%となった.
著者
中川 聖一 堀部 千寿
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.55, pp.87-92, 2001-06-01
被引用文献数
5

最近、多くの大語彙連続音声認識システムが開発、使用されているが、音声認識された結果には、認識誤りが含まれることが多い。そこで、音声認識の結果どの部分が正しいか、または誤っている可能性が高いかを判別できればアプリケーションに対する悪影響を軽減することができると考えられる。このような正しい(誤っている)可能性が高いかを判別するパラメータは信頼度(Confidence Measure)とよばれ、大語彙音声認識システムや対話システムなどでの利用が考えられている。本稿では信頼度を音響的なアプローチと言語的なアプローチからそれぞれ計算し、それぞれの結果の論理和をとることにより、正解単語の判定の精度を向上させる方法を提案する。The recognition errors are inevitable for large vocabulary continuous speech recognition systems. If unreliable candidates are correcty identified, the harmful influence caused by recognition errors will reduce. The measure of reliability is called "Confidence Measure" and it is useful for various applications such as transicription systems and dialogue systems. In this paper, we propose a new conefidence measure which combines logically the likelihood of acoustic model and that of language model.
著者
小林 哲則 中川 聖一 菊池 英明 白井 克彦 匂坂 芳典 甲斐 充彦
出版者
早稲田大学
雑誌
特定領域研究
巻号頁・発行日
2000

今年度の成果は以下の通りである。a)対話のリズムと韻律制御前年度までの成果に基づいて、対話における話題境界の判別を題材に、韻律情報におけるアクセント句単位でのパラメータを用いて統計的なモデルを学習し、オープンデータに対しても人間と同程度の判別精度が得られることを確認した。(白井・菊池)自然な対話システムを構築する上で重要なシステム側の相槌生成と話者交替のタイミングの決定を、韻律情報と表層的言語情報を用いて行う方法を開発した。この決定法を、実際に天気予報を題材にした雑談対話システムに実装し、被験者がシステムと対話することにより主観的な評価を行い、有用性を確認した。(中川)b)対話音声理解応用対話音声における繰り返しの訂正発話に関する特徴の統計的な分析結果を踏まえ、フレーズ単位の韻律的特徴の併用と訂正発話検出への適用を評価した。また、これらと併せた頑健な対話音声理解のため、フィラーの韻律的な特徴分析・モデル化の検討を行った。(甲斐)c)対話音声合成応用語彙の韻律的有標性について程度の副詞を用い、生成・聴覚の両面から分析を行い、自然な会話音声生成のための韻律的強勢制御を実現した。また、統計的計算モデルによる話速制御モデルを作成し、会話音声にみられる局所話速の分析を進め、自由な話速の制御を可能とした。さらに、韻律制御パラメータが合成音声の自然性品質に及ぼす影響を調べた。(匂坂)d)対話システム上記の成果をまとめ,対話システムを実装した。特に,顔表情の認識・生成システム,声表情の認識・生成システムなどを前年度までに開発した対話プラットホーム上に統合し,パラ言語情報の授受を可能とするリズムある対話システムを構築した。(小林)
著者
中川 聖一 秋葉 友良 山本 一公 土屋 雅稔
出版者
豊橋技術科学大学
雑誌
基盤研究(B)
巻号頁・発行日
2010

音声認識の高精度化と音声認識結果の整形化、音声ドキュメントからの検索語の高速・高精度検索法の研究を行った。音声認識の高精度化に関しては、従来のHMMを越える新しい音声認識モデルを提案し、その有効性を示した。音声認識結果の整形に関しては、話し言葉音声の音声認識結果からの書き言葉への整形のための確率モデルを提案し、その有効性を示した。音声ドキュメントからの検索語の高速検出に関しては、音節のnグラムインデックスに基づく手法を提案し、その有効性を示した。
著者
峯松 信明 片岡 嘉孝 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.100, pp.39-46, 1995-10-20
被引用文献数
23

本研究では講演調の話し言葉に対して,音響的/言語的,更には知覚的観点から分析を行なった。特に,講演調の話し言葉に対して人間が感じる「ポーズ(間,区切り)」が音響的(物理的)なポーズとどの程度対応がとれるのか,そして,知覚的ポーズの周辺にはどのような言語表現(間投詞,つなぎ語,終助詞)が頻出するのか,の2点に焦点を置いた分析を行なった。その結果,音響的ポーズと知覚的ポーズとの相関には発話速度が関与していることが示された。また,知覚的ポーズをほぼ確実に引き起こす言語表現として「え[?]」「え[?]と」「で」が観測された。なお本報告では,50年代より言語学者らによって行なわれてきた話し言葉に村する研究例のサーベイも行なっている。これらの研究例を考察することは工学的応用と言う観点から考えた場合においても,非常に有益なことである。Analysis of spoken language in lecture style was carried out from acoustic, linguistic and perceptual viewpoints. Especially, the correlation was investigated between pauses which human listeners perceive in lecture-style speech and those which were detected semi-automatically using some acoustic methods. Linguistic expressions(interjections and filled pauses) around the perceptual pauses were also analyzed. As a result, it was found that the correlation between the two types of pauses was influenced by speech rate and that "e[e]", "e[e]to" and "de" were observed as the linguistic expressions which caused perceptual pauses in quite high probability. And in this paper, some of the traditional researches for spoken language conducted not by engineers but by linguists were also surveyed. It is very beneficial to look into these researches in terms of technological application.
著者
甲斐 充彦 中野 崇広 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.12, pp.81-86, 1998-02-05
被引用文献数
15

近年、wwwブラウザは携帯情報端末などをはじめ、様々な用途・環境で用いられつつある。そこで、音声入力を用いたWWWブラウザ操作システムを試作し、音声による効率的な操作の実現方法について検討した。本システムは、閲覧中のホームベージ文書中のリンクに対応しているキーワードやその一部の発話により、リンク先へのジャンプをはじめとするWWWブラウザの操作を実現した。ユーザが発話する可能性があるキーワード断片をHTMLテキストの形態素解析結果を用いて抽出すると同時に、文書構造も含めたキーワードの指定を許すような言語制約を自動生成するようにした。本システムは、ユーザが種々の計算機環境で利用できることを想定し、ネットワークベースで動作する音声認識サーバを用いてクライアント・サーバ構成で実装し、ユーザが比較的容易に利用できるWWWブラウザの音声操作システムを実現した。Recently, the WWW browser has been used by many kinds of people and with various computational environments such as the personal digital assistant. In this study, we developed a voice-operating WWW browser and investigated the methods which make the best use of the property of speech for operating a WWW browser. Our system allows a user to utter a voice command for jumping to a desired link without using a keyboard and/or mouse. The user only need to utter a keyword or its fragment which corresponds to the desired link. The keywords are dynamically extracted from a HTML file on a last-specified URL and their meaningful fragments from the output of a Japanese morpheme analyzer are added to the system's lexicon. Some additional expressions for specifying keywords are automatically added by using the structural information of a HTML document. This system is implemented by a client-server architecture and thus a user can effectively use this system on standard PCs.
著者
土屋 雅稔 肥田 新也 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2008, no.46, pp.1-6, 2008-05-15

統計的固有表現抽出のためには,固有表現がタグ付けされた十分な量の学習コーパスが必要である.しかし,新規の固有表現が増加し続けていることを考慮すると,あらゆる固有表現に対応した学習コーパスを用意することは非現実的である.本稿では,この問題に対処するために,固有表現がタグ付けされたコーパスとタグ付けされていないコーパスを併用して,タグ付けされたコーパスに頻出しない語 (非頻出語) を含む固有表現を抽出する手法を提案する.提案手法は 2 段階からなる.最初に,タグ付けされていない大量のコーパスを用いて,入力テキストに含まれている非頻出語を,その非頻出語と良く似た頻出語に対応付ける.次に,元々の語から得られる素性と頻出語から得られる素性の両方を組み合わせて学習した統計的固有表現抽出器によって,固有表現を抽出する.IREX コーパスと NHK コーパスを用いた実験により,提案手法は,非頻出語からなる固有表現の抽出において効果的であることを示す.This paper proposes a novel method to extract named entities including infrequent words which do not occur or occur few times in a training corpus using a large unannotated corpus. The proposed method consists of two steps. The first step is to assign the most similar and frequent word to each infrequent word based on their context vectors calculated from a large unannotated corpus. After that, traditional machine learning approaches are employed as the second step. The experiments of extracting Japanese named entities from IREX corpus and NHK corpus show the effectiveness of the proposed method.
著者
中川 聖一 伊田 政樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.449, pp.45-52, 1997-01-17
被引用文献数
1

音声認識システムの評価を行なうにあたって、タスクの複雑性を表す尺度として一般にパープレキシティ (perplexity) が多く用いられている。パープレキシティは情報理論的な意味での平均分岐数を表し、各時点における同定すべき単語数に相当する。しかしこの尺度では文の長さや各時点での分岐数の偏りの正規化が不十分なためにタスクの複雑性を厳密に反映した尺度であるとはいえない。そこで、本稿では音声認識部を統計的にシミュレートしてタスクの複雑性と認識率の関係について検討し、新しいタスクの複雑性の尺度としてSMR-Perplexity (Square Mean Root Perplexity) を提案する。さらに実際の統計的言語モデルを用いた連続音声認識システムの評価に本手法を適用し、本手法の有効性を示す。