著者
越仲 孝文 西脇 大輔 山田 敬嗣
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.99, no.649, pp.45-52, 2000-02-22

筆記体英字列における文字同士の変形の依存関係や, ブロック体英字列および数字列における筆者間変動のような, 文字列中の文字の変形の相互依存関係を記述するため, 連続隠れマルコフモデル(HMM)の各状態に文字パタンの確率密度関数を配置した, 文字パターンのbigramモデルを提案する.提案するモデルでは, 文字パタン同士の連接の起こりやすさを状態遷移確率で表すことにより, 文字列中の他の文字パタンの形状も考慮した文字認識が可能となる.数字列データに対する認識実験では, 従来手法と比較していくらかの性能改善がみられた.また, 文字列中の文字を認識する際に, その直前の文字の形状を考慮する本手法の特性を生かした筆者適応効果が確認された.
著者
安原 雅貴 荒川 隆行 越仲 孝文 矢野 昌平
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.3Rin225, 2019 (Released:2019-06-01)

バイオメトリクス認証のひとつに,外耳道の音響特性を示す外耳道伝達特性を特徴量とした耳音響認証がある. 外耳道伝達特性は,ドライバユニットとマイクロホンが一体となった専用イヤホンを用いて測定する. イヤホンを毎回着脱するため,測定データに観測ゆらぎが含まれる. 我々は過去の研究で,2つのマイクロホンを内蔵したイヤホンを用いて得られる2つの特徴量を組み合わせることで精度が向上すると考えた. しかし,精度は向上しなかった. これは特徴量を組み合わせる手法が有効ではないと考えられる. 本研究では,複数のマイクロホンから得られる特徴量により観測ゆらぎを補間すると考え,すべての特徴量を同一ラベルで学習する手法を提案する. 提案手法により,精度の向上が確認できた. 分散を用いた解析より,精度が向上したのは観測ゆらぎを補間できたことと,1回の測定で得られる特徴量が増え,学習データが多くなったことによるものと考えられる. 複数のマイクロホンを内蔵したイヤホンを用いる手法は有効であることがわかった.
著者
谷 真宏 江森 正 大西祥史 越仲 孝文 篠田 浩一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.85-89, 2007-12-20
被引用文献数
4

十分統計量を用いた教師なし話者適応において,選択する話者の数を決定する手法を提案する.音声認識における高速な教師なし話者適応の一つとして,話者毎の十分統計量を用いた手法が提案されている.これは,予め用意した複数の話者の中から,評価話者に音響的な特徴が近い話者を選択し,選択された話者の十分統計量を用いて,評価話者に適応した音響モデルを構築する手法である.従来手法では,評価話者に音響的な特徴が近い話者を選択する際,複数の話者の中から,予め定められた数だけ選択する.提案手法では,評価話者と予め用意した話者との音響特徴量空間における話者間距離を基準に,選択する話者の数を決定する.電話による対話音声を用いた認識実験において,従来手法に比較し,単語正解精度が 0.74 ポイント向上した.特に,音響的な特徴が近い話者が少ない評価話者に対して有効であることを確認した.We propose a new speaker selection method for the unsupervised speaker adaptation based on HMM sufficient statistics. The adaptation technique of using HMM sufficient statistics has been proposed as one of the rapid unsupervised speaker adaptation techniques in speech recognition. The procedure is as follows: First the training speakers acoustically close to the test speaker are selected. Then, the acoustic model is trained using the HMM sufficient statistics of these selected training speakers. In this technique, the number of selected training speakers is always constant. In our proposed speaker selection method, the number of speakers is determined by the distances between the test speaker and each training speaker. In our recognition experiments using spoken dialogue data, the proposed method improved word accuracy by 0.74 points. It was confirmed that the proposed method particularly effective when there are not many training speakers around the test speaker in acoustic space.
著者
越仲 孝文 西脇 大輔 山田 敬嗣
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会総合大会講演論文集
巻号頁・発行日
vol.1995, no.2, 1995-03-27
被引用文献数
1

漢数字"一","二","三"およびセパレータ"|","ノ"などからなる文字列は住所文字列において出現頻度が高く,ストロークの位置関係を考慮しない通常の方式で切り出し認識は困難である.この問題を解決するために,ストロークの線分特徴を用いて、文字列を認識ペースで切り出す方法について検討したので報告する.