著者
北岡 教英 新宮 将久 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.94, pp.43-48, 2003-05-30
参考文献数
9
被引用文献数
1

人間の音響的知覚能力と,局所的なコンテキストを教示して音声を聞かせることで音響モデルとN-gram言語モデルによる音声認識をシミュレーションし,実際の音声認識システムと比較して各モデルの能力について検討を行った.人間の知覚実験ではコンテキストが与えられない場合に短い単語の知覚が難しいが,前2単語程度のコンテキストで短い単語の聴取は改善される.これは,助詞などが多い短い単語のパープレキシティが,言語モデルを用いることで小さくなることに対応する.また,コンテキスト情報のみからの単語予測能力もパープレキシティと強い相関がある.一方,前後2単語のコンテキストを与えると予測能力はさらに向上するが,必ずしも聴取能力の向上につながらない.同様の認識を音声認識システムでも行った.ユニグラム言語モデルと音響モデルによる認識は,人間のコンテキストなしの聴取に遠く及ばないが,トライグラム言語モデルの予測能力は人間と同等以上である.一方で人間でさらに予測能力が向上するコンテキストを与えても知覚能力は向上しないことから単語予測能力の高い言語モデルが認識の向上につながることは考えにくい.すなわち,講演音声などの自由発話認識に対しては,トライグラムによる言語のモデル化は十分でありかつこれ以上の改善による認識率向上は難しい一方で,音響モデルはまだ大きく改善すべきであると考えられる.

言及状況

Twitter (1 users, 1 posts, 2 favorites)

人間の言語モデル的な性能はどんなもんか?というのではこういう研究がある(音声認識性能しかしらべてないけど) https://t.co/9MycGztiEI

収集済み URL リスト