- 著者
-
布目 光生
鈴木 優
森田 眞弘
- 出版者
- 情報処理学会
- 雑誌
- 研究報告デジタルドキュメント(DD) (ISSN:21862583)
- 巻号頁・発行日
- vol.2011, no.6, pp.1-7, 2011-03-21
電子書籍を音声合成で読み上げる場合に,文書の書式特徴を活用してより聞きやすい朗読を実現するテキスト前処理手段を提案する.文を処理の基本単位とする従来の発話手法では困難な,タイトルや箇条書きと本文を区別したような読み方や,文書全体の構成や流れを考慮したような,自然な読み上げの実現を目指す.今回,具体的なアプローチとして,入力文書テキストの特徴量として論理構造をはじめとする抽出手段と,特にポーズ情報に関連したメタデータの推定手段,そして,音声合成エンジンへ提供するための XML 化,という一連のテキスト処理機能の試作と,ポーズ情報の付与精度評価を行った.本報告では,これらの手法と評価実験結果について述べる.We conduct feasibility studies for the development of a text preprocessing technique that uses document formatting features for improved natural speech synthesis with the aim of targeting e-book readers. In traditional text-to-speech (TTS) systems, it is difficult to implement a feature by which the different document elements such as the document body, title, and itemized forms are read in a suitable tone. We implement certain functionalities, namely a sentence characteristics extractor that determines the logical nature of a document element, a metadata estimator that generates pause information, and a transformer that converts these results to speech synthesis markup language, which a TTS system can process. Details about these processes and experimental results of a simple implementation of pause estimation are described in this report.