大須賀智子 堀内靖雄 市川 熹
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
vol.2003, no.58, pp.1-6, 2003-05-27

本研究では、音声の韻律情報のみを用いた文の構造の推定手法について検討した。推定に用いる韻律パラメータとして、今回は新たに、先行するアクセント句末1モーラにおける局所的な韻律的特徴を用いて文の木構造の生成を試みた。ATR503文を対象として実験を行った結果、部分木のレベルで約76?%の推定精度を得ることができた。これは従来の、後続音声区間にまたがる、より大局的なパラメータを用いた場合に対し、約4?%の低下にとどまり、ほぼ遜色のない結果が得られた。すなわち、先行する音声区間の局所的な韻律情報のみから、後続の音声区間への係り受け関係がある程度推定可能であることが確かめられた。この結果から、局所的特徴も文構造の理解へ貢献しており、韻律情報が我々人間の実時間および実環境での発話理解を支えるために、頑健な構造となっている可能性が示唆されたといえる。In this study, we introduce a method of estimating the syntactic tree structure of Japanese speech from the F0 contour and time duration. We formed the hypothesis that we can infer a syntactic relation with the following part by listening only to the leading part of speech, and we proposed an estimating method which uses only the local prosodic features of the final part of the leading phrase. We applied the method to the ATR 503 speech database. The experimental results indicated an estimation accuracy of 76\% for the branching judgment for each sequence of three leaves. We consider this result to be fairly good for the difficult task of estimating a syntactic structure that includes a future part by using only local prosodic features in the past, and also consider prosodic information to be very effective in real-time communication with speech.