著者
平山 直樹 吉野 幸一郎 糸山 克寿 森 信介 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.55, no.7, pp.1681-1694, 2014-07-15

本論文では,様々な方言の混合に対応する音声認識システムを構築する.まず,単一方言音声認識の言語モデルを,大規模共通語言語コーパスから擬似生成した方言言語コーパスで学習する.擬似生成には,共通語-方言対訳コーパスからWFST(重み付き有限状態トランスデューサ)によって学習されたルールを用いる.次に,構築された各方言言語モデルを混合し,発話ごとに最適な混合比を推定しながら認識を行う.これは,実際に話される方言が純粋な単一方言ではなく,人の移動やテレビ,ラジオなどの放送の影響を受けた様々な方言の混合であると考えられるからである.この推定には,音声認識用言語モデルにおける対数尤度の値を用いる.実験により,方言音声認識用言語モデルを用いて方言音声の認識精度が向上することを確認した.また,対数尤度と音声認識精度に強い相関があること,対数尤度を最大化する混合比を発話ごとに選択することで,固定混合比の場合と比較して音声認識精度が向上することを確認した.

言及状況

Facebook (1 users, 1 posts)

そういえば共著の論文がPublishされました。WFSTを用いて方言の音素列を持つコーパスを擬似生成し、そこから学習したモデルで音声認識を行う手法です。 方言は地域ごとに定義されていますが、各話者が話す方言は100%その地方の方言ではなく、その話者が育ってきた環境、地域などに左右され様々な方言が混在しています。提案手法ではこれを方言言語モデルの混合によって扱い、様々な話され方の方言(共通語が混ざっ ...

Facebook における性別

Twitter (4 users, 4 posts, 3 favorites)

収集済み URL リスト