著者
松井 知子 古井 貞熙
出版者
一般社団法人映像情報メディア学会
雑誌
テレビジョン学会技術報告 (ISSN:03864227)
巻号頁・発行日
vol.20, no.41, pp.19-24, 1996-07-16
被引用文献数
4

話者認識は、発声者が誰であるかを自動的に判定する技術である。本論文では、話者認識の基本的な説明をするとともに、テキスト指定型話者照合方法について解説する。テキスト指定型話者照合方法は近年注目を集めている方法で、装置を用いるたびに装置側から新しい言葉を指定することによって、テープレコーダなどによる悪用を防ぐことができる。更に近年、高品質マイク、静かな環境で録音したデータに関しては、多くの研究機関が99%以上の高い話者認識率を報告するようになったが、背景雑音、回線歪み、事前閾値などに関する課題が残されていることを紹介する。最後に、話者認識研究の展望について述べる。
著者
岩野 公司 関 高浩 古井 貞熙
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
巻号頁・発行日
vol.46, pp.55-60, 2003-05-27
参考文献数
6

本論文では,韻律情報を利用した雑音に頑健な音声認識手法について述べる。韻律特徴量として,時間-ケプストラム平面のハフ変換から得られる対数基本周波数の傾き(△log F_0)と最大累積投票値を利用し,通常の音声認識で用いられる音響特徴量と結合して用いる.音韻と韻律の融合モデルは,音節単位のマルチストリームHMMで構築する.融合モデルの様々な雑音環境における頑健性を確認するため,不特定話者の連続数字発声を対象とした音声認識実験を行った.実験の結果,本手法によって様々な雑音環境において数字正解精度の改善が確認され,△log F_0と最大累積投票値が相補的に認識性能の向上に貢献することがわかった.また,基本周波数情報を音声認識に用いることで,雑音環境下における数字境界の推定精度が向上し,それによって,数字正解精度の改善と,頑健な挿入ぺナルティーの設定が実現されることが確認された.
著者
古井 貞熙
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会誌 (ISSN:09135693)
巻号頁・発行日
vol.95, no.5, pp.422-426, 2012-05-01

1950年代以降,半世紀以上にわたって進歩を遂げてきた音声認識技術は,第1,第2,第3,第3.5世代に分けることができる.近年,種々の音声認識応用システムが実際に用いられるようになってきたが,その性能は人の能力に比べるとはるかに劣っており,人の能力に近づくには,第4世代といえるような大きなパラダイムシフトが必要である.そのためには,現在の音声認識技術で扱うことができない複数のレベルでの動的音声特徴の利用と,人が経験する多様かつ膨大な変化をカバーする音声コーパスに基づく,大規模かつ多様な音声言語知識の体系化を行う必要があると思われる.
著者
古井 貞熙
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.109, no.355, pp.49-54, 2009-12-14
被引用文献数
1

これまで約40年間にわたって、音声認識に関する研究を行ってきた。この間に統計的手法をベースに、音声認識技術は大きく進歩したが、まだ人の能力には遠く及ばない。最近は、学会や学会誌で発表される技術の進歩がやや飽和しており、人の能力に近付く道筋が見えない。現在の研究のアプローチには、何かが欠けているように思われる。それが何かは明確でないが、現在の単純な枠組みではなく、多数のレベルの多様な知識を最適に組み合わせて着実な認識へ導く、統計的な知識処理のフレームワークを構築する必要があるように思われる。