著者
久保 慶伍 川波 弘道 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告 音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2011, no.16, pp.1-6, 2011-01-28

未知語に対する自動読み付与の重要性は高く,音声認識,音声合成,検索クエリの予測変換などの技術において性能の改善が期待される.未知語に対する自動読み付与においては,文字などの小さい単位で表記と読みをアライメントした辞書データが必要となる.しかし,データを人手で構築するとコストが掛かるため,表記と読みの自動アライメントが研究されている.しかし,従来の研究で提案された手法では,大きい単位でのアライメントほど1以下の値の乗算回数が少なくなるため,大きい単位のアライメントが有利になり,小さい単位でのアライメントが困難であった.大きい単位でアライメントが行われると未知語の読み付与に対する頑健性を失われる.本報告では,学習時に各アライメントの乗算回数を表記と読みの全体の文字数にすることで,最も小さい単位で表記と読みをアライメントする手法を提案する.そして,提案手法により自動読み付与のための学習データを構築し,未知語に対する自動読み付与による評価を行った.評価の結果,提案手法が従来手法よりも最大で約43.6%読み付与正解率を改善した.この結果から,提案法は未知語に対する自動読み付与において有効であることが実証された.Previously, a variety of automatic reading annotation to an unknown word has been researched, as improvement of the performance is expected in speech recognition, speech synthesis and predictive transform of a retrieval query, etc. Automatic reading annotation to an unknown word needs a dictionary which includes relation between a graphem and reading on a small unit. However, it is difficult to construct manually such a dictionary due to the cost. This research addresses to obtain relation of a graphem and reading on a small unit from a conventional word dictionary etc. automatically, and an unsupervised alignment method that uses the EM algorithm is employed. In the conventional alignment method, because the multiplication frequency decreases in the alignment by the large unit, a large unit tends to be used for alignment. In this report, we proposed a novel method that specify an alignment by the smallest unit by making the multiplication frequency of each alignment the number of characters of the grapheme and reading in training. We evaluated the proposed method on accuracy of automatic reading annotation to the unknown word. Result of evaluation show the proposed method improves the reading annotation correct about 43.6% higher than the conventional method.