著者
加藤淳 中野倫靖 後藤真孝
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-104, no.15, pp.1-7, 2014-08-18

本稿では、歌詞を歌声と同期してアニメーションさせる Kinetic Typography と呼ばれる動画表現の制作環境 TextAlive を提案する。既存の制作ツールでは、歌詞と歌声の同期を手作業で取り、文字や単語、複数単語から成るフレーズに対して個別に望みの動きを設計する必要があった。その際は、動きを規定するアルゴリズムのパラメタを、スライダーなどの汎用 GUI で調整して試行錯誤を重ねていた。一方、本制作環境では、歌詞と音楽の時間的対応付けを自動で推定し、動きのアルゴリズムに対する初期パラメタを自動生成する。さらに、動きのアルゴリズムを編集できるコードエディタを備え、プログラマがパラメタ調整に適した専用 GUI を容易に提供できるフレームワークを提供する。これにより、TextAlive のユーザは Kinetic Typography を一から作る必要がなくなり、初めに時間合わせなどを行う手間をかけずに済む。また、歌詞の動きをインタラクティブかつグラフィカルに設計できるようになる。
著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.23, pp.1-7, 2013-08-24

本稿では、複数の歌声から得られる音響特徴量をトピックモデルによって分析することで、歌声の特性を説明する新しい手法を提案する。従来、歌手の特性 (性別や声種等)、歌い方の特性 (声区やF0軌跡のモデル化等)、聴取印象 (明るさ等)、楽曲の特性 (楽曲ジャンルや歌詞等) を分析・推定したりする研究はあったが、複数の歌声から分かるような潜在的な意味を分析する研究はなかった。本稿では、伴奏と歌声を含む音楽音響信号から、歌声の線形予測メルケプストラム係数 (LPMCC) と ΔF0 を特徴量として自動推定した後、潜在的ディリクレ配分法 (LDA) で分析を行う。LDA によって得られた潜在意味 (トピック) の混合比が歌手名同定にも適用可能であることを示し、声道長の正規化に相当する処理を導入することで、性別を超えた類似歌手検索を実現することも示す。また、トピックの混合比を用いて、各トピックにおいて支配的な曲の歌手名をタグクラウドのように提示することで、トピックや歌声の意味を可視化する方法を提案する。
著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.2, pp.1-7, 2014-08-18

本稿では、歌声と伴奏を含む音楽音響信号を対象として、「ボーカルの歌声」、「楽曲中の音色」、「リズム」、「和音進行」 の確率的生成モデルを構築し、モデルからの生成確率を計算することで、「楽曲間の類似度」 や 「楽曲のありがち度」 を推定する手法を提案する。歌声、音色、リズムに関しては、LPMCC、MFCC、Fluctuation Pattern に基づく音響特徴量を抽出し、それぞれに関して潜在的ディリクレ配分法 (LDA) を用いたトピック分析を行う。個々の楽曲毎に学習したモデルと全曲から学習したモデルから、楽曲における各音響特徴量の生成確率を計算することで、それぞれ楽曲間の類似度とありがち度を推定した。和音進行に関しては、能動的音楽鑑賞サービス Songle のコード認識結果に対し、可変長 Pitman-Yor 言語モデル (VPYLM) でモデル化した。ここでは、個々の楽曲毎に学習したモデルと全曲で学習したモデルから、各曲のパープレキシティの逆数 (各和音の平均的な生成確率) を計算することで、それぞれ類似度とありがち度として推定した。本稿では、ポピュラー音楽 3278 曲を対象として分析した結果を報告する。
著者
土井啓成 戸田智基 中野倫靖 後藤真孝 中村哲
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.5, pp.1-9, 2012-08-02

歌声の声質には,歌手の個人性が反映されており,他者の声質に自在に切り替えて歌うことは難しい.そこで我々は,歌声の声質を他者の歌声の声質へと自動変換することで,任意の声質での歌唱を実現する手法を提案し,歌唱という音楽表現の可能性を広げることを目指す.従来,統計的声質変換に基づく歌声声質変換が実現されていたが,提案手法では様々な声質に少ない負担で変換可能にするため,多対多固有声変換を導入する.これにより変換時に数秒程度の少量の無伴奏歌声さえあれば,任意の歌手の歌声から別の任意の歌手の歌声への声質変換が実現できる.しかし,その声質変換モデルの事前学習データとして,ある参照歌手の歌声と多くの事前収録目標歌手の歌声とのペアから構成されるパラレルデータセットが必要で,その歌声収録は困難であった.そこで提案手法では,歌唱表現を模倣できる歌声合成システム VocaListener を用いて目標歌手の歌声から参照歌手の歌声を生成することで,その学習データ構築を容易にする.実験結果から提案手法の有効性を確認した.
著者
土井啓成 戸田智基 中野倫靖 後藤真孝 中村哲
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-96, no.5, pp.1-9, 2012-08-02

歌声の声質には,歌手の個人性が反映されており,他者の声質に自在に切り替えて歌うことは難しい.そこで我々は,歌声の声質を他者の歌声の声質へと自動変換することで,任意の声質での歌唱を実現する手法を提案し,歌唱という音楽表現の可能性を広げることを目指す.従来,統計的声質変換に基づく歌声声質変換が実現されていたが,提案手法では様々な声質に少ない負担で変換可能にするため,多対多固有声変換を導入する.これにより変換時に数秒程度の少量の無伴奏歌声さえあれば,任意の歌手の歌声から別の任意の歌手の歌声への声質変換が実現できる.しかし,その声質変換モデルの事前学習データとして,ある参照歌手の歌声と多くの事前収録目標歌手の歌声とのペアから構成されるパラレルデータセットが必要で,その歌声収録は困難であった.そこで提案手法では,歌唱表現を模倣できる歌声合成システム VocaListener を用いて目標歌手の歌声から参照歌手の歌声を生成することで,その学習データ構築を容易にする.実験結果から提案手法の有効性を確認した.
著者
加藤淳 中野倫靖 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.15, pp.1-7, 2014-08-18

本稿では、歌詞を歌声と同期してアニメーションさせる Kinetic Typography と呼ばれる動画表現の制作環境 TextAlive を提案する。既存の制作ツールでは、歌詞と歌声の同期を手作業で取り、文字や単語、複数単語から成るフレーズに対して個別に望みの動きを設計する必要があった。その際は、動きを規定するアルゴリズムのパラメタを、スライダーなどの汎用 GUI で調整して試行錯誤を重ねていた。一方、本制作環境では、歌詞と音楽の時間的対応付けを自動で推定し、動きのアルゴリズムに対する初期パラメタを自動生成する。さらに、動きのアルゴリズムを編集できるコードエディタを備え、プログラマがパラメタ調整に適した専用 GUI を容易に提供できるフレームワークを提供する。これにより、TextAlive のユーザは Kinetic Typography を一から作る必要がなくなり、初めに時間合わせなどを行う手間をかけずに済む。また、歌詞の動きをインタラクティブかつグラフィカルに設計できるようになる。