著者
須田 仁志 深山 覚 中野 倫靖 齋藤 大輔 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2018-MUS-121, no.17, pp.1-6, 2018-11-14

本稿では,複数人が歌唱している楽曲に対して誰がいつ歌っているかを推定する歌唱者ダイアライゼーションの基礎的な検討を行う.とくに本稿ではグループアイドルソングのような複数の歌唱者が交互に歌ったり同時に歌ったりする楽曲を対象とする.本稿では伴奏音を除去した歌声を用いてアイドルソングのデータセットを構築した.またこれらの歌声に対して,歌唱者の音響モデルを未知とした手法と既知とした手法の 2 手法を用いて歌唱者ダイアライゼーションを行った.歌唱者の音響モデルを未知とした手法には,会話音声に対する話者ダイアライゼーションで広く用いられている修正ベイズ情報量規準を用いた手法を利用した.また音響モデルを既知とした手法では,i - vector を用いた話者認識を利用して短時間での歌唱者認識を繰り返し行うことで推定した.推定結果から,歌唱者の音響モデルの有無により大きな性能の差があること,また音響モデルが既知であっても短時間での歌唱者認識だけでなく適切な後処理によって推定誤りを減らせることが確認できた.
著者
土井啓成 戸田智基 中野倫靖 後藤真孝 中村哲
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-96, no.5, pp.1-9, 2012-08-02

歌声の声質には,歌手の個人性が反映されており,他者の声質に自在に切り替えて歌うことは難しい.そこで我々は,歌声の声質を他者の歌声の声質へと自動変換することで,任意の声質での歌唱を実現する手法を提案し,歌唱という音楽表現の可能性を広げることを目指す.従来,統計的声質変換に基づく歌声声質変換が実現されていたが,提案手法では様々な声質に少ない負担で変換可能にするため,多対多固有声変換を導入する.これにより変換時に数秒程度の少量の無伴奏歌声さえあれば,任意の歌手の歌声から別の任意の歌手の歌声への声質変換が実現できる.しかし,その声質変換モデルの事前学習データとして,ある参照歌手の歌声と多くの事前収録目標歌手の歌声とのペアから構成されるパラレルデータセットが必要で,その歌声収録は困難であった.そこで提案手法では,歌唱表現を模倣できる歌声合成システム VocaListener を用いて目標歌手の歌声から参照歌手の歌声を生成することで,その学習データ構築を容易にする.実験結果から提案手法の有効性を確認した.
著者
室伏 空 中野 倫靖 後藤 真孝 森島 繁生
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2009-MUS-81, no.21, pp.1-7, 2009-07-22

本研究では、既存のダンス動画コンテンツの複数の動画像を分割して連結(切り貼り)することで、音楽に合ったダンス動画を自動生成するシステムを提案する。従来、切り貼りに基づいた動画の自動生成に関する研究はあったが、音楽{映像間の多様な関係性を対応付ける研究はなかった。本システムでは、そうした多様な関係性をモデル化するために、Web 上で公開されている二次創作された大量のコンテンツを利用し、クラスタリングと複数の線形回帰モデルを用いることで音楽に合う映像の素片を選択する。その際、音楽{映像間の関係だけでなく、生成される動画の時間的連続性や音楽的構造もコストとして考慮することで、動画像の生成をビタビ探索によるコスト最小化問題として解いた。
著者
中野 倫靖 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 = IPSJ journal (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.227-236, 2007-01-15

本論文では,歌唱力を自動的に評価するシステム開発の第1 段階として,ポピュラー音楽における歌唱力の「うまい」「へた」を,楽譜情報を用いずに自動的に識別する手法を提案する.従来,訓練された歌唱者の歌唱音声に関する音響学的な考察は行われてきたが,それらの研究は歌唱力の自動評価に直接適用されたり,人間による評価と結び付けて検討されたりすることはなかった.本論文では,聴取者の歌唱力評価の安定性を聴取実験によって確認し,そこで得られた結果から歌唱音声に「うまい」「へた」をラベル付けして自動識別実験を行った.そのための特徴量として,歌唱者や曲に依存しない特徴であることを条件に,相対音高とビブラートの2 つを提案する.聴取実験では,22 人の聴取者を被験者とし,聴取者間の評価に相関があった組の割合は88.9%(p < .05)であった.また,600 フレーズのラベル付けされた歌唱音声に対して識別実験を行った結果,83.5%の識別率を得た.As a first step towards developing an automatic singing skill evaluation system, this paper presents a method of classifying singing skills (good/poor) that does not require score information of the sung melody. Previous research on singing evaluation has focused on analyzing the characteristics of singing voice, but were not directly applied to automatic evaluation or studied in comparison with the evaluation by human subjects. In order to achieve our goal, two preliminary experiments, verifying whether the subjective judgments of human subjects are stable, and automatic evaluation of performance by a 2-class classification (good/poor ), were conducted. The approach presented in the classification experiment uses pitch interval accuracy and vibrato as acoustic features which are independent from specific characteristics of the singer or melody. In the subjective experiment with 22 subjects, 88.9% of the correlation between the subjects' evaluations were significant at the 5% level. In the classification experiment with 600 song sequences, our method achieved a classification rate of 83.5%.
著者
平井 辰典 中野 倫靖 後藤 真孝 森島 繁生
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会誌 (ISSN:13426907)
巻号頁・発行日
vol.66, no.7, pp.J251-J259, 2012 (Released:2012-06-25)
参考文献数
12
被引用文献数
2

We present a method that can automatically annotate when and who is appearing in a video stream that is shot in an unstaged condition. Previous face recognition methods were not robust against different shooting conditions, such as those with variable lighting, face directions, and other factors, in a video stream and had difficulties identifying a person and the scenes the person appears in. To overcome such difficulties, our method groups consecutive video frames (scenes) into clusters that each have the same person's face, which we call a “facial-temporal continuum,” and identifies a person by using many video frames in each cluster. In our experiments, accuracy with our method was approximately two or three times higher than a previous method that recognizes a face in each frame.
著者
加藤淳 中野倫靖 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.15, pp.1-7, 2014-08-18

本稿では、歌詞を歌声と同期してアニメーションさせる Kinetic Typography と呼ばれる動画表現の制作環境 TextAlive を提案する。既存の制作ツールでは、歌詞と歌声の同期を手作業で取り、文字や単語、複数単語から成るフレーズに対して個別に望みの動きを設計する必要があった。その際は、動きを規定するアルゴリズムのパラメタを、スライダーなどの汎用 GUI で調整して試行錯誤を重ねていた。一方、本制作環境では、歌詞と音楽の時間的対応付けを自動で推定し、動きのアルゴリズムに対する初期パラメタを自動生成する。さらに、動きのアルゴリズムを編集できるコードエディタを備え、プログラマがパラメタ調整に適した専用 GUI を容易に提供できるフレームワークを提供する。これにより、TextAlive のユーザは Kinetic Typography を一から作る必要がなくなり、初めに時間合わせなどを行う手間をかけずに済む。また、歌詞の動きをインタラクティブかつグラフィカルに設計できるようになる。
著者
中野 倫靖 緒方 淳 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.386-397, 2007-01-15
被引用文献数
3

本論文では,人がドラムの音を「ドンタンドドタン」のように擬音語で真似た音声(口ドラム)を,それに対応するドラムパターンとして認識する手法を提案する.口ドラムには,声質などの発声スタイルの個人差と表現の個人差の2 種類の個人差が存在し,認識手法はこれらの個人差を吸収できるものが望ましい.従来,実際のドラム音(楽器音)を対象とした認識は研究されてきたが,それらの手法では口ドラムの多様な個人差への対処が難しかった.そこで本手法では,口ドラムを,その各音を表す音素列の擬音語で表現し,多様な擬音語表現の辞書を用意することで,表現の個人差に対処する.さらに,音声認識で用いられている音響モデルを用いることにより,各歌唱者間の声質の個人差を吸収する.本手法を200 発話の口ドラムデータに対して適用した結果,最も良い実験条件において92.0%の認識率を得た.この結果は,提案手法が十分実用性を持つことを示しており,応用例として,口ドラムによるドラム譜入力インタフェースVoice Drummer を実装した.This paper presents a method of recognizing voice percussion (verbalized expression of drum sound by voice) as an expression of intended drum patterns. Recognition of voice percussion requires an approach that is different from existing methods for drum sound recognition. Individual differences in both vocal characteristics and the verbal expressions used add further complication to the task. The approach taken in this study uses phonemic sequences of onomatopoeia as internal representation of drum sounds. The set of onomatopoeia used in drum sounds are included in a pronunciation dictionary, and the phonemic sequences are estimated by utilizing an acoustic model. The acoustic model and the dictionary are intended to deal with the two types of individual differences mentioned above. In a recognition experiment with 200 utterances of voice percussion, our method achieved a recognition rate of 92.0% for the highest-tuned setting. Following the results of the proposed method, Voice Drummer, a music notation interface of drum sounds, was implemented, as a practical application for voice percussion recognition.