布目光生 黒田由加 水岡良彰 森田眞弘
vol.2013, no.23, pp.1-6, 2013-12-12

弱視者や識字障碍者でも読みやすいとされる DAISY コンテンツは,電子書籍端末や音声合成技術の普及により教科書などのコンテンツで徐々に広がることが期待されている.しかし,そのコンテンツ作成作業は,ボランティアベースで多くの時間がかかっていたため,エンドユーザが必要とする図書を,簡単に手早く作成することが困難だった.本報告では,こうした課題に対応するための音訳支援システムを提案する.音声合成技術の活用と,テキスト解析誤りに依存する読みやアクセント誤りの修正手段を Web アプリとして提供することで,視覚・識字障碍者のための朗読コンテンツを,音訳ボランティアや保護者・教職員などの作業者が簡単に作成できる環境の提供を目指す.また,従来の作業手順と比較し,本提案システムを活用した場合の作業期間に関する予備評価の結果についても述べる.DAISY content is expected to gradually gain popularity among the visually impaired according to the prevalence of e-book reading devices and the development of text-to-speech technology. However, the development of DAISY-formatted e-books, which is undertaken by volunteers, is a time-consuming process, making it difficult to meet the needs of end users. In this report, we propose a content transliteration system that can convert plain text to DAISY content including formatted HTML and audio data via automatic text-to-speech technology. Furthermore, using the GUI of the proposed system, users can correct text and accent information by inputting "ruby-type" data. Through this functionality, we aim to target support from transliterate workers such as volunteers, teachers, and parents to make and edit contents easily and quickly for the people with visually impaired. Finally, we present the results of a preliminary evaluation using the proposed method in order to compare it with the conventional method.
布目 光生 鈴木 優 森田 眞弘
研究報告デジタルドキュメント(DD) (ISSN:21862583)
vol.2011, no.6, pp.1-7, 2011-03-21

電子書籍を音声合成で読み上げる場合に,文書の書式特徴を活用してより聞きやすい朗読を実現するテキスト前処理手段を提案する.文を処理の基本単位とする従来の発話手法では困難な,タイトルや箇条書きと本文を区別したような読み方や,文書全体の構成や流れを考慮したような,自然な読み上げの実現を目指す.今回,具体的なアプローチとして,入力文書テキストの特徴量として論理構造をはじめとする抽出手段と,特にポーズ情報に関連したメタデータの推定手段,そして,音声合成エンジンへ提供するための XML 化,という一連のテキスト処理機能の試作と,ポーズ情報の付与精度評価を行った.本報告では,これらの手法と評価実験結果について述べる.We conduct feasibility studies for the development of a text preprocessing technique that uses document formatting features for improved natural speech synthesis with the aim of targeting e-book readers. In traditional text-to-speech (TTS) systems, it is difficult to implement a feature by which the different document elements such as the document body, title, and itemized forms are read in a suitable tone. We implement certain functionalities, namely a sentence characteristics extractor that determines the logical nature of a document element, a metadata estimator that generates pause information, and a transformer that converts these results to speech synthesis markup language, which a TTS system can process. Details about these processes and experimental results of a simple implementation of pause estimation are described in this report.