著者
北 研二 川端 豪 斎藤 博昭
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.31, no.3, pp.472-480, 1990-03-15
被引用文献数
32

高精度の連続音声認識システムを構築するためには 言語情報の利用が不可欠であり これまでにも 統計的言語モデル 正規文法 文脈自由文法等を用いて音声認識システムの認識率を向上させる方法が提案されている.本論文では これらとは異なる新しい方法HMM-LR法を提案する.HMM-LR法は 拡張LR構文解析法で用いられる構文解析動作表から入力音声データ中の音韻を予測し 予測された音韻の尤度をHMM音韻照合で調べることにより 音声認識と言語処理を同時進行させる.この方式では 音声認識と言語処理の間に音韻ラティス等の中間的なデータを介する必要がなく 高精度のかつ効率的な認識処理系を構成することができる.また HMM-LR法に基づく日本語の文節認識システムを作成し 評価を行った.評価には 日本語の一般的な文節構造を扱うことのできる一般的文法(語彙数約1 000語)と認識対象となるタスクに現れる現象のみを扱うタスク向き文法(語彙数約270語)の2種類の文法を用いた.一般的文法に対する第1位での正答率は72.0% 第5位までで95.3%の正答率を達成した.タスク向き文法に対しては それぞれ79.9% 98.6%の正答率を達成した.
著者
山田 智一 松永 昭一 川端 豪 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. A, 基礎・境界 (ISSN:09135707)
巻号頁・発行日
vol.77, no.2, pp.198-205, 1994-02-25
被引用文献数
19

仮名・漢字の文字連鎖確率に基づく統計的言語モデルを利用した日本語Dictationシステムについて述べる.日本語の統計的言語モデルとして,仮名・漢字の文字連鎖確率(次に出現する文字の,既に出現した2文字による条件付き確率)に基づくモデルを利用した方が,従来の音韻や音節の連鎖確率に基づくモデルよりも有効であることを,パープレキシティ(情報論的な意味での平均分枝数)に基づいて検討する.更に,仮名・漢字連鎖のモデルを用いた日本語Dictationシステムを構築し,(1)仮名・漢字連鎖確率のみによるモデルを利用した場合,(2)(1)モデルと読みの辞書を用いて,出力された漢字仮名混じり系列に対する読みを考慮した場合,(3)あらかじめ読みを考慮して作成した,仮名・漢字連鎖確率によるモデルを用いた場合について,パープレキシティとシステムの文字変換率(正解表記に用いられる文字を,出力文字系列がいくつ含んでいるか),文節変換率(出力文字系列がすべて正しく,かつその読みも正しいものの割合)で比較・検討する.国際会議の問合せに関するタスクにおいて,特定話者1名による,語いの仮定なしでの274文節の変換実験に対し,(3)の場合に,文節変換率65.0%,文字変換率79.0%を達成した.
著者
東中川 亮 川端 豪
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLP, 非線形問題 (ISSN:09135685)
巻号頁・発行日
vol.109, no.124, pp.1-6, 2009-07-06

本報告では確率的ライフゲームについて述べる.Conwayの決定論的ライフゲームは,初期様相依存性が著しく,安定状態における生存密度の制御が難しい.そこでセル・オートマトンの複雑な挙動を緩和するために生存規則に確率を導入することを試みた.ゆらぎを与えるために決定論的な生存規則を確率的に緩和するパラメータとして緩和値αを導入した.この緩和の効果によって,初期様相のバリエーションに由来する最終生存密度のばらつき(標準偏差)を抑えることができた.このαの値は確率的ライフゲームの安定状態における生存密度の制御のために有用である.
著者
川端 豪
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.10, pp.1967-1972, 1994-10-25
被引用文献数
14

音声による会話は,人間と機械の情報交換の手段として最も快適なインタフェースと考えられ,その実現には,効率的な自然言語処理の技術が必要となる.本論文では,自然音声言語の複雑性を軽減する一手法として,統計的手法に基づく新しい話題制御の機構を提案する.入力音声は予測型CFGを用いて解析されるが,このとき生成される文法規則の系列を用いてHMMを駆動し,その状態分布の偏りとして話題を同定する.逆に,この分布の偏りを動的に文法規則の確率に反映させることによって認識探索空間を絞り込む.大規模対話テキストデータベースを用いて,テキストデータ入力に対するパープレキシティの削減効果を評価し,提案する手法が強力な探索空間の絞込み能力をもつことを確認した.
著者
奥乃 博 中谷 智広 川端 豪
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.3, pp.510-523, 1997-03-15
被引用文献数
6

本稿では,一般環境下での音声認識のための前処理として音響ストリーム分離を使用するうえでの問題点について検討する.本稿の前半では,音声ストリーム分離の方法を提案する.提案する方法は,調波構造ストリーム断片の抽出とそのグルーピング,および,入力音からすべての調波構造を除いた残差での非調波構造の補完から構成される.本稿の後半では,分離した音声ストリームを離散型単一コードブック型HMM?LRで認識するうえでの問題点を解明し,その解決策を提示する.提案する音声ストリーム分離方法で方向情報抽出のために用いたバイノーラル入力がスペクトル変形を引き起こし,音声認識に影響を与えることが判明した.この対策として,4方向で頭部音響伝達関数をかけた学習データでHMM?LRのパラメータを再学習する方法を提案した.2人の話者の500組の子音を含んだ発話(SN比0??3dB)の音声認識実験を5種類行い,音声ストリーム分離により上位10候補累積認識率に対する混合音による認識誤りを最大77%削減することができた.This paper reports the preliminary results of experiments on listening to several sounds at once.Two issues are addressed:segregating speech streams from a mixture of sounds,and interfacing speech stream segregation with automatic speech recognition(ASR).Speech stream segregation(SSS) is designed as three processes:extracting harmonic fragments;grouping these extracted harmonic fragments according to their directions;and substituting the non-harmonic residue of harmonic fragments for non-harmonic parts of each group.The main problem in interfacing SSS with HMM-based ASR is how to reduce the recognition errors caused by spectral distortion of segregated sounds mainly due to binaural input.Our solution is to re-train the parameters of the HMM with training data binauralized for four directions.Experiments with five sets of 500 mixtures of two women's/men's utterances of a word(SNR is 0dB to -3dB)showed that the error of up to the 10th candidate of word recognition was reduced up to 77% by speech stream segregation.
著者
大村 祐司 川端 豪
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.112, no.369, pp.47-51, 2012-12-13

目的達成および雑談的な対話制御機能を併せ持っ音声対話システムを構築した.目的達成のための対話制御はスロットフィリングに基づいて行われる.一方,雑談的な対話制御は刺激一応答型の事例ベースで行われる.刺激応答に基づく対話制御部は雑談のきっかけとなる単語を監視し,発見すればその単語に応じた雑談を開始する.数回のやり取りの後,制御は目的達成型対話制御部に戻る.11名の被験者にこのシステムと対話をして貰い,アンケート結果を集計したところ,雑談機能を持つ音声対話システムのほうが「面白い」「興味深い」「人間的」などの項目でよい評価を得た.
著者
宮崎 将隆 川端 豪
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.1-6, 2009-07-10
参考文献数
6

本報告ではtfidf法に基づく話題キーワード選択法の改良を行う.ブログなどの限定された少数ページから tfidf を計算しようとすると,その基となる tf 及び idf の値が精度良く求められない.まず,idf については Web ページ全体から算出した idf で Wikipedia から算出した idf を近似できることが分かった.次に,tf については単語共起に基づくクラスタリング手法を導入し,キーワードのグループを構成した.少数ページから tf の計数を行う際に,グループに含まれるすべての単語の計数値の総和で代用する.実験によって,このようにして求めたグループ tf が真の tf と強い相関を持つことを確認した.This paper describes an improvement of the keyword selection criteria based on the "tfidf" measure. It is very difficult to estimate "tf (term frequency)" and "idf (inverse document frequency)" values from small amount of weblog pages. First, we investigate an approximation of the world wide idf value as the Wikipedia idf value. Experiments show that this idf approximation is promising. Secondly, we apply the clustering method to word co-occurrence and make several word groups. The tf value of a keyword is extrapolated as the sum of its group word frequency. Experiments show that the group-word based tf values counted in small amount of pages are strongly correlated to the true tf values.
著者
田本 真詞 川端 豪
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.74, pp.13-18, 1996-07-26
被引用文献数
4

音声対話システムと人間との快適なコミュニケーションを実現させるには、音声対話システムに対話を協調的に進めるための機構が必要と考えられる。そこで人間同士の対話記録の分析から対話の協調的機構に関わる知識を獲得し、対話システムへ応用することが検討されている。本研究では、実際の音声対話における間投詞、終助詞などの発話の開始・終了符号、あいづち・復唱などの応答などの対話の調整やそのふるまいなどを観察し、対話の協調的機構のための知識の獲得を検討する。特に、対話の調整の観察のためのタスクとして目的指向型協調作業に着目し、タスクと同時発話や言い差し、間投詞的応答など発話権の移動に関わる対話の調整との関連を分析する。This report describes some feature of dialogue coordination that convey intentional and operational information of utterances. For constructing an effortless speech conversation system, it is necessary to implement the coordination mechanism in spoken dialogues. To analyze the dialogue coordination, we collect two kinds of task-oriented cooperative speech dialogues named Client-Manipulator task and Client-Advisor task. We analyze the relations of turn-taking behaviors to the dialogue coordination in various tasks and dialogue conditions.
著者
永井 明人 北 研二 花沢 利行 川端 豪 鹿野 清宏 森元 逞 嵯峨山 茂樹 榑松 明 鈴木 忠 岩崎 知宏 中島 邦男
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.9, pp.723-729, 1994-09-01
被引用文献数
1

本稿は、大語彙の連続音声認識を実時間で処理するための、HMM-LR連続音声認識装置の設計、処理性能について述べる。HMM-LR法は、一般化LR構文解析により入力音声データ中の音素を予測し、予測された音素の存在確率をHMM音素照合により調べることで、音声認識と言語処理を同時進行させる方式であり、高精度で効率的な処理系を構成することができる。処理量が極めて大きな継続時間制御付きトレリス計算を伴うHMM-LR連続音声認識を実時間で実行するために、本装置は種々の高速化手法を33個のDSPを用いて実現した。その結果、連続文節発声の入力音声に対し、入力文の長さに依らずに、発声終了後から2〜3秒ですべての認識処理を終了する処理速度を達成した。