著者
堤 怜介 加藤 正治 小坂 哲夫 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.89, no.2, pp.305-313, 2006-02-01
被引用文献数
4

本研究では話し言葉の音声認識で問題となる各種変動要因のうち,不明りょうな発音などを中心とした発音変形の問題について検討する.一般に発音変形への村処として,一つの表記に対し想定される読みを複数登録する方法がとられる.しかし単純に読みを増加させるとマッチングの対象が増加し,逆に認識時に悪影響を及ぼす.そこで本研究では発音変形の言語的な偏りを利用するため,発音変形を考慮した形態素解析データに基づく言語モデルを提案する.以上を実現するため,「日本語話し言葉コーパス」(CSJ)の書き起こしテキストを利用して,約95万語からなる発音変形のエントリを含む学習テキストを作成,それに基づき言語モデルを学習する.CSJに含まれる講演音声の認識実験を行い,4講演の平均で単語誤り率(WER)の改善率は26.5%を達成し,話し言葉の認識においては,発音変形への対処が重要であることを示した.また言語モデルや音響モデルの教師なし適応法を導入することにより,更なる性能向上を目指した結果,WERが適応なしの場合の21.8%から,言語モデル及び音響モデルの教師なし適応を行った場合で17.6%に減少した.
著者
井上 雅史 安原 龍 菅 郁巳 小坂 哲夫
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.31, 2017

パグリックドメインの映画映像から,複数発話からなる対話区間を自動で抽出し,マルチモーダル対話コーパスを作成した.22ジャンル,1,722本の映画に対して音声検出(VAD)およびルールを適用し,149,689の対話区間を同定した.同定の精度は音楽やミュージカルのジャンルを除き,9割前後であった.大量の対話区間・非対話区間の機械学習のための訓練データや,対話の多様性の分析のために利用可能と考えている.
著者
小坂 哲夫 赤津 達也 加藤 正治 好田 正紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.90, no.12, pp.3201-3209, 2007-12-01
参考文献数
12
被引用文献数
4

本研究では,音素モデルを用いた話者ベクトルに基づくテキスト独立型話者識別について述べる.本研究の目的は,音声の音素コンテクスト情報を使用することによって,話者識別の性能を改善させることである.本話者識別システムはアンカーモデルに基づいている.このシステムでは,識別対象話者の発声とアンカーモデル間のゆう度からなる話者ベクトルによって,各々の話者が話者空間に配置される.このシステムの利点として,識別対象話者の音響モデルを必要としないという点が挙げられる.このため1発話程度の極めて少量の登録用発声で話者識別が可能となる.しかし対象話者の音響モデルを使用しないため,従来の手法では識別性能が低いという問題点があった.本研究では,性能の改善のために,アンカーモデルとして従来用いられている混合ガウス分布モデル(GMM)ではなく,音素HMMを用いる手法を提案する.音素HMMの対数ゆう度の計算には,音素認識器を使用する.30名の日本語話者識別タスクで本手法の評価を行った.実験では,平均5.5sのごく短い発話を識別対象話者の登録用データとして使用した.この結果GMMベースのアンカーモデルシステムと比較し,72.1%の相対的改善が得られた.