著者
河原 英紀 森勢 将雅 西村 竜一 入野 俊夫
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.4, pp.1-6, 2012-05-26

シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の (基本周波数の) 周波数変調と、同様に、高速の (スペクトル包絡の) 振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ (生々しさ) を制御できる可能性が示された。Strong expressions such as "shout" and "death voice" are common in popular singing. However, current singing synthesis systems are not good at handling these strong expressions and are not capable of using them to expand their limit of expressiveness. This is the topic this article tries to address. A set of singing voice analysis tests was conducted using our newly developed F0 extraction method, which has high temporal resolution and is light-weighted, and TANDEM-STRAIGHT for spectral envelope analyses. This test revealed that expressive singing voices consist of high-speed frequency as well as amplitude modulations in F0 and spectral envelope respectively. In one typical case, about 20 dB higher modulation frequency spectral peak was found around 70 Hz for expressive performance than that of normal performance. Preliminary tests suggested that selective control of "expressiveness" can be implemented by manipulating these high-speed modulations while preserving vocal register and effort intact.

言及状況

Twitter (1 users, 1 posts, 0 favorites)

こんな論文どうですか? 音源およびスペクトル包絡の時間的微細構造の加工と歌唱音声の印象への影響について(河原 英紀ほか),2012 https://t.co/wjWazEKfoI

収集済み URL リスト