- 著者
-
峯松 信明
西村 多寿子
朝川 智
櫻庭 京子
齋藤 大輔
- 出版者
- 一般社団法人情報処理学会
- 雑誌
- 情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
- 巻号頁・発行日
- vol.2007, no.75, pp.75-80, 2007-07-20
- 参考文献数
- 30
- 被引用文献数
-
3
一つの言語には通常数十種類の音素(phoneme)がある。しかし音素の音的実体は前後文脈(音素環境)などによって多様に変形し,異音(allophone)と呼ばれる。音素と比較して種類数も多く,より具体的な音的現象に対応している。しかし奇妙なことに,これら音的事象を記号を用いて記す場合,性別,年齢,収録・伝送機器特性などによる音の変形(非言語的要因による音響的変形)は一切無視される.その音響的変形が幾ら大きくても,である。音声認識の音響モデリングは,凡そ,異音に相当する音事象をtriphoneとしてモデル化しているが,「非言語的変形の無視」を実装するために,数万人の話者から,様々な環境で収録した音サンプル群を統計的にモデル化している。本稿では,「非言語的変形の無視」の実装は,集めることではなく,音事象間の差異を捉えることで可能となることを数学的に示し,極めて少数の話者の音声で,不特定話者音声認識が可能であることを示す。提案する枠組みでは,音的要素をモデル化するのではなく,音的差異に着眼し,差異を集めることで構成される全体的な音的構造をモデル化する。