著者
長野 徹森信介西村雅史 森 信介 西村 雅史
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.69, pp.81-86, 2005-07-16
被引用文献数
1

本論文では、規則音声合成における読みとアクセントを、確率モデルに基づき同時に推定する手法を提案し、その実験結果を報告する。規則音声合成において、任意の入力テキストに対し、正しい音韻情報と韻律情報を生成することは、自然な合成音声を得るために重要な要件である。本研究では、入力テキストに対し、最も基本的な音韻情報と韻律情報である読みとアクセントを付与する問題を取り扱う。日本語の場合、入力テキストは一般的に漢字仮名交じり文であり、複数の読み候補から正しい読みを推定する必要があるとともに、その読みに対して正しいアクセントを推定する必要がある。従来、日本語テキストに対して、形態素解析・読み付与・アクセント句決定・アクセント核決定、という手順を段階的に行うことで、読みとアクセントを決定することが多かったが、本研究では、表記(単語境界)・品詞・読み・アクセントを1つの単位とみなし、n-gram モデルを用いて同時に推定する。実験では、ルールに基づきアクセント句およびアクセント核を決定する逐次的な手法との比較を行った。その結果、確率モデルに基づく手法の精度がルールに基づく手法の精度を上回ることを確認した。We present a new stochastic approach to estimate accurately phonemes and accents for Japanese TTS (Text-to-Speech) systems. Front-end process of TTS system assigns phonemes and accents to an input plain text, which is critical for creating intelligible and natural speech. Rule-based approaches that build hierarchical structures are widely used for this purpose. However, considering scalability and the ease of domain adaptation, rule-based approaches have well-known limitations. In this paper, we present a stochastic method based on an n-gram model for phonemes and accents estimation. The proposed method estimates not only phonemes and accents but word segmentation and part-of-speech (POS) simultaneously. We implemented a system for Japanese which solves tokenization, linguistic annotation, text-to-phonemes conversion, homograph disambiguation, and accents generation at the same time, and observed promising results.