著者
堤 怜介 加藤 正治 小坂 哲夫 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.89, no.2, pp.305-313, 2006-02-01
被引用文献数
4

本研究では話し言葉の音声認識で問題となる各種変動要因のうち,不明りょうな発音などを中心とした発音変形の問題について検討する.一般に発音変形への村処として,一つの表記に対し想定される読みを複数登録する方法がとられる.しかし単純に読みを増加させるとマッチングの対象が増加し,逆に認識時に悪影響を及ぼす.そこで本研究では発音変形の言語的な偏りを利用するため,発音変形を考慮した形態素解析データに基づく言語モデルを提案する.以上を実現するため,「日本語話し言葉コーパス」(CSJ)の書き起こしテキストを利用して,約95万語からなる発音変形のエントリを含む学習テキストを作成,それに基づき言語モデルを学習する.CSJに含まれる講演音声の認識実験を行い,4講演の平均で単語誤り率(WER)の改善率は26.5%を達成し,話し言葉の認識においては,発音変形への対処が重要であることを示した.また言語モデルや音響モデルの教師なし適応法を導入することにより,更なる性能向上を目指した結果,WERが適応なしの場合の21.8%から,言語モデル及び音響モデルの教師なし適応を行った場合で17.6%に減少した.
著者
堀 智織 加藤 正治 伊藤 彰則 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-2, 情報・システム 2-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2407-2417, 2000-11-25
参考文献数
9
被引用文献数
9

本論文では, 確率文脈自由文法(Stochastic Context Free Grammar:SCFG)を大語彙連続音声認識に適用する手法として, 文節単位の係り受け制約をもつSCFGを提供する.SCFGは, N-gramのような局所的な制約だけでなく, 文全体にわたる大局的な制約をも記述できることから, 非常に表現力の高い言語モデルとして知られている.しかし, SCFGのパラメータ推定にはInside-Outsideアルゴリズムを用いる必要があり, 非終端記号数の3乗, かつ入力系列長の3乗に比例する莫大な計算量を要する.そのため, SCFGは大量のテキストコーパスから推定することが難しく, これまで大語彙連続音声認識用の言語モデルとして利用されることはほとんどなかった.提案する文節単位の係り受けSCFGは, Inside-Outsideアルゴリズムの計算量を係り受けの制約により非終端記号数の2乗に, 文節単位の導入により更にその約1/8に削減できる有効なモデルである.EDRコーパスを用いた実験では, 提案法を含む各種SCFGの性能とパラメータ推定に要する処理量を比較し, 提案法が計算量を大幅に削減しつつ, パープレキシティがほとんど増加しいことを示す.毎日新聞コーパスを用いた実験では, 大規模な文節単位の係り受けSCFGを構築し, 大語彙連続音声認識システムに実装する.そして, 語彙サイズ5000の音声認識実験を行い, SCFGによる認識性能はTrigramには及ばないものの, Trigramと併用した場合にはTrigram単独の場合に比べて約14%の単語誤りを削減できることを示す.
著者
伊藤 彰則 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.12, pp.2062-2069, 1996-12-25
被引用文献数
18

日本語連続音声認識のための新しい言語モデル作成法について述べる.英語のコーパスは単語ごとに分かち書きされているために,単語単位のN-gramが容易に作成できる.これに対して,日本語のコーパスは漢字かな混じり文で記述されているために,事前に形態素解析を行って形態素単位のN-gramを作成するか,あるいは文字単位のN-gramを使う方法が提案されていた.本論文では,これらの手法に対して「かな・漢字文字列によるN-gram」を提案する.この手法は,学習テキストから統計的に決めた単位でテキストを分割し,そのN-gramを求めるという手法である.この手法を用いれば,事前に形態素解析を行うことなくN-gramを作成することができる.テキスト分割の手法についてさまざまな方法を比較した結果,学習テキスト中の出現頻度によって文字列を選択する方法が最も良い性能を与えた.また,学習テキストと評価テキストを変えた実験を行った結果,いずれの条件でも従来法を超える性能を得ることができた.
著者
伊藤 彰則 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会総合大会講演論文集
巻号頁・発行日
vol.1996, no.1, pp.345-346, 1996-03-11

現在我々は文節構造をベースとした対話音声認識を目指して研究を進めている.その一環として,これまで人間同士の対話から文節構造モデルを構築するという研究を行ってきた.しかし,単純な有限オートマトンによる文法では認識に用いる際の制約能力が不十分であることから,N-gramなどの確率モデルの利用を検討している.N-gramによる確率モデルを日本語に適用する際に問題になるのは,何をモデルの単位とするかである.英語の場合には学習用のテキストが単語ごとにわかち書きされているので単語単位のN-gramが容易に構成できるが,日本語の場合には事前に形態素解析が必要である.しかし,従来の形態素解析システムを用いて会話文のような文章を解析するのは難しく,正確な解析は望めない.文字などの単位を用いた確率モデルを使うこともできるが,N-gramの単位が短いため,制約が弱い.そこで本稿では,次のような手法によって自動的にN-gramを生成する方法について検討する.1.「単語単位」と「文字単位」の中間的な単位として,学習テキストから自動的に抽出できる単位を用いて確率モデルを構成する.2.学習テキストの文字列を何らかの基準でクラスに分け,そのクラスと文字のN-gramを構成する.3.学習テキストに対して文節数最小基準による形態素解析を行い,その結果からN-gramを生成する.今回は,文節単位のデータを用いてN-gramを構成し,マルコフモデルによる文節モデルを構築している.
著者
小坂 哲夫 赤津 達也 加藤 正治 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.90, no.12, pp.3201-3209, 2007-12-01
参考文献数
12
被引用文献数
4

本研究では,音素モデルを用いた話者ベクトルに基づくテキスト独立型話者識別について述べる.本研究の目的は,音声の音素コンテクスト情報を使用することによって,話者識別の性能を改善させることである.本話者識別システムはアンカーモデルに基づいている.このシステムでは,識別対象話者の発声とアンカーモデル間のゆう度からなる話者ベクトルによって,各々の話者が話者空間に配置される.このシステムの利点として,識別対象話者の音響モデルを必要としないという点が挙げられる.このため1発話程度の極めて少量の登録用発声で話者識別が可能となる.しかし対象話者の音響モデルを使用しないため,従来の手法では識別性能が低いという問題点があった.本研究では,性能の改善のために,アンカーモデルとして従来用いられている混合ガウス分布モデル(GMM)ではなく,音素HMMを用いる手法を提案する.音素HMMの対数ゆう度の計算には,音素認識器を使用する.30名の日本語話者識別タスクで本手法の評価を行った.実験では,平均5.5sのごく短い発話を識別対象話者の登録用データとして使用した.この結果GMMベースのアンカーモデルシステムと比較し,72.1%の相対的改善が得られた.