著者
後藤 真孝 中野 倫靖 濱崎 雅弘
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.56, no.11, pp.739-749, 2014-02-01 (Released:2014-02-01)
参考文献数
19

本稿では,初音ミクとN次創作に関連した音楽情報処理の研究事例として,歌声合成技術VocaListenerと音楽視聴支援サービスSongriumを紹介する。VocaListenerは,初音ミク等の歌声合成ソフトウェアを用いて,録音された人間の歌声の事例からその歌い方(声の高さと声の大きさ)をまねて自然な歌声を合成する技術である。Songriumは,オリジナル楽曲とそれらのN次創作結果である派生作品といったさまざまな関係性を可視化できる音楽視聴支援サービスである。本稿ではさらに,より未来を見据えて自動創作と自動鑑賞の可能性を考察することで,音楽がもたらす感動の本質的な要因についても議論する。
著者
山本 雄也 中野 倫靖 後藤 真孝 寺澤 洋子
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.64, no.10, pp.1423-1437, 2023-10-15

歌手は楽譜に合わせて歌うだけでなく,その音高や音色に変動を加えることがある.本論文は,これらを「歌唱テクニック」とし,ポピュラー音楽の中でもJ-POPを対象に,歌手によって歌唱テクニックがどのくらいの頻度でどのように生起するか,そして楽曲のどこで生起するか,その傾向を分析することを目的とする.そこで本論文では,J-POPのプロ歌手24名(男女各12名)の歌い方を別のプロ歌手14名(男女各7名)が学術目的で模倣した歌声データベース「AIST-SIDB」に含まれる48歌唱の13種類の歌唱テクニックを対象として,歌唱テクニックとメロディの持つ音楽要素との関係性を分析した.具体的には,歌唱テクニックの生起頻度と,歌唱テクニックの1つであるビブラートに関してはそのパラメータ(深さと速さ)を分析した.さらに,歌唱テクニックの生起位置を楽譜情報と対応付けて,各歌唱テクニックと「歌詞の音素」,「音高」,「音高差」,「音長」,「フレーズ内における位置」との関係を分析し,またビブラートパラメータと「音高」および「ビブラート長」との相関を分析した.
著者
後藤 真孝 吉井 和佳 中野 倫靖 緒方 淳
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

本招待講演ではメディア処理におけるクラウドソーシング利用の先駆事例として、音楽理解技術によって音楽の聴き方を豊かにする能動的音楽鑑賞サービスSongleと、音声認識技術によって動画中の音声を書き起こせる音声情報検索サービスPodCastleを紹介する。いずれも自動理解誤りの訂正インタフェースをWeb上で提供し、不特定多数による自発的な訂正がユーザ体験の改善に結びつくことでさらなる利用を促していく。
著者
加藤淳 中野倫靖 後藤真孝
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-104, no.15, pp.1-7, 2014-08-18

本稿では、歌詞を歌声と同期してアニメーションさせる Kinetic Typography と呼ばれる動画表現の制作環境 TextAlive を提案する。既存の制作ツールでは、歌詞と歌声の同期を手作業で取り、文字や単語、複数単語から成るフレーズに対して個別に望みの動きを設計する必要があった。その際は、動きを規定するアルゴリズムのパラメタを、スライダーなどの汎用 GUI で調整して試行錯誤を重ねていた。一方、本制作環境では、歌詞と音楽の時間的対応付けを自動で推定し、動きのアルゴリズムに対する初期パラメタを自動生成する。さらに、動きのアルゴリズムを編集できるコードエディタを備え、プログラマがパラメタ調整に適した専用 GUI を容易に提供できるフレームワークを提供する。これにより、TextAlive のユーザは Kinetic Typography を一から作る必要がなくなり、初めに時間合わせなどを行う手間をかけずに済む。また、歌詞の動きをインタラクティブかつグラフィカルに設計できるようになる。
著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.23, pp.1-7, 2013-08-24

本稿では、複数の歌声から得られる音響特徴量をトピックモデルによって分析することで、歌声の特性を説明する新しい手法を提案する。従来、歌手の特性 (性別や声種等)、歌い方の特性 (声区やF0軌跡のモデル化等)、聴取印象 (明るさ等)、楽曲の特性 (楽曲ジャンルや歌詞等) を分析・推定したりする研究はあったが、複数の歌声から分かるような潜在的な意味を分析する研究はなかった。本稿では、伴奏と歌声を含む音楽音響信号から、歌声の線形予測メルケプストラム係数 (LPMCC) と ΔF0 を特徴量として自動推定した後、潜在的ディリクレ配分法 (LDA) で分析を行う。LDA によって得られた潜在意味 (トピック) の混合比が歌手名同定にも適用可能であることを示し、声道長の正規化に相当する処理を導入することで、性別を超えた類似歌手検索を実現することも示す。また、トピックの混合比を用いて、各トピックにおいて支配的な曲の歌手名をタグクラウドのように提示することで、トピックや歌声の意味を可視化する方法を提案する。
著者
中野 倫靖 後藤 真孝 平賀 譲
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.227-236, 2007-01-15

本論文では,歌唱力を自動的に評価するシステム開発の第1 段階として,ポピュラー音楽における歌唱力の「うまい」「へた」を,楽譜情報を用いずに自動的に識別する手法を提案する.従来,訓練された歌唱者の歌唱音声に関する音響学的な考察は行われてきたが,それらの研究は歌唱力の自動評価に直接適用されたり,人間による評価と結び付けて検討されたりすることはなかった.本論文では,聴取者の歌唱力評価の安定性を聴取実験によって確認し,そこで得られた結果から歌唱音声に「うまい」「へた」をラベル付けして自動識別実験を行った.そのための特徴量として,歌唱者や曲に依存しない特徴であることを条件に,相対音高とビブラートの2 つを提案する.聴取実験では,22 人の聴取者を被験者とし,聴取者間の評価に相関があった組の割合は88.9%(p < .05)であった.また,600 フレーズのラベル付けされた歌唱音声に対して識別実験を行った結果,83.5%の識別率を得た.
著者
中野 倫靖 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.227-236, 2007-01-15
被引用文献数
14

本論文では,歌唱力を自動的に評価するシステム開発の第1 段階として,ポピュラー音楽における歌唱力の「うまい」「へた」を,楽譜情報を用いずに自動的に識別する手法を提案する.従来,訓練された歌唱者の歌唱音声に関する音響学的な考察は行われてきたが,それらの研究は歌唱力の自動評価に直接適用されたり,人間による評価と結び付けて検討されたりすることはなかった.本論文では,聴取者の歌唱力評価の安定性を聴取実験によって確認し,そこで得られた結果から歌唱音声に「うまい」「へた」をラベル付けして自動識別実験を行った.そのための特徴量として,歌唱者や曲に依存しない特徴であることを条件に,相対音高とビブラートの2 つを提案する.聴取実験では,22 人の聴取者を被験者とし,聴取者間の評価に相関があった組の割合は88.9%(p < .05)であった.また,600 フレーズのラベル付けされた歌唱音声に対して識別実験を行った結果,83.5%の識別率を得た.As a first step towards developing an automatic singing skill evaluation system, this paper presents a method of classifying singing skills (good/poor) that does not require score information of the sung melody. Previous research on singing evaluation has focused on analyzing the characteristics of singing voice, but were not directly applied to automatic evaluation or studied in comparison with the evaluation by human subjects. In order to achieve our goal, two preliminary experiments, verifying whether the subjective judgments of human subjects are stable, and automatic evaluation of performance by a 2-class classification (good/poor ), were conducted. The approach presented in the classification experiment uses pitch interval accuracy and vibrato as acoustic features which are independent from specific characteristics of the singer or melody. In the subjective experiment with 22 subjects, 88.9% of the correlation between the subjects' evaluations were significant at the 5% level. In the classification experiment with 600 song sequences, our method achieved a classification rate of 83.5%.
著者
中野 倫靖 緒方 淳 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.41, pp.45-50, 2004-05-07
被引用文献数
1

本稿では,人がドラムの音を真似て口ずさんだ音声(口ドラム)を認識し,それに対応するドラムパターンを検索する手法を提案する.従来,実際のドラム音(楽器音)を対象とした認識は研究されてきたが,口ドラムは研究されていなかった.口ドラム認識では,音質とドラム音表現の両方の個人差への対処が問題となるため,従来のドラム音認識手法は適用できない.そこで本手法では,擬音語を中間形式として採用することでこの問題に対処する.擬音語の各音素を口ドラム音のスペクトル構造へ対応付けるために確率モデルを用い,音質の個人差を吸収する.また,各ドラム音に対応する擬音語の辞書を用意して、表現の個人差に対処する.200発話の口ドラムデータに対して実験した結果,91.5%の認識率を得た.This paper proposes a method of recognizing voice percussion )simulated drum sound by voice) and retrieving the corresponding drum pattern from a database. Although drum sound recognition has been the topic of existing work, there has been no previous attempt that dealt with the problem of voice percussion recognition. This problem is difficult because of individual differences inherent in voice spectrum characteristics and also in how the intended drum sounds are articulated. We solve this problem by utilizing phonemic sequences of onomatopoeia as internal representation. The sequences are estimated from the input power spectrum with a stochastic model, and are flexibly matched with dictionary entries representing typical drum patterns. This two-level scheme is intended to deal with the two types of individual differences mentioned above. In an experiment with 200 utterances of voice percussion, our method achieved a recognition rate of 91.5%.
著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.2, pp.1-7, 2014-08-18

本稿では、歌声と伴奏を含む音楽音響信号を対象として、「ボーカルの歌声」、「楽曲中の音色」、「リズム」、「和音進行」 の確率的生成モデルを構築し、モデルからの生成確率を計算することで、「楽曲間の類似度」 や 「楽曲のありがち度」 を推定する手法を提案する。歌声、音色、リズムに関しては、LPMCC、MFCC、Fluctuation Pattern に基づく音響特徴量を抽出し、それぞれに関して潜在的ディリクレ配分法 (LDA) を用いたトピック分析を行う。個々の楽曲毎に学習したモデルと全曲から学習したモデルから、楽曲における各音響特徴量の生成確率を計算することで、それぞれ楽曲間の類似度とありがち度を推定した。和音進行に関しては、能動的音楽鑑賞サービス Songle のコード認識結果に対し、可変長 Pitman-Yor 言語モデル (VPYLM) でモデル化した。ここでは、個々の楽曲毎に学習したモデルと全曲で学習したモデルから、各曲のパープレキシティの逆数 (各和音の平均的な生成確率) を計算することで、それぞれ類似度とありがち度として推定した。本稿では、ポピュラー音楽 3278 曲を対象として分析した結果を報告する。
著者
矢倉 大夢 中野 倫靖 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2016-MUS-112, no.3, pp.1-10, 2016-07-23

本稿では,作業時に集中度を高めることを目的として聴取する楽曲,「作業用 BGM」 に特化した楽曲推薦システムを提案する.従来,ユーザが好むであろう楽曲を推薦する手法が研究されてきたが,「とても好き」 な楽曲は作業者の集中を阻害することが知られており,作業用 BGM として推薦する楽曲に適していない.提案システムは,「とても好き」 や 「とても嫌い」 ではなく、「好き」 もしくは 「どちらともいえない」 楽曲を,BGM 聴取時のユーザからのフィードバックに基づいて推薦する.具体的には,楽曲のサビ区間までをダイジェスト的に聴取する (部分的にしか再生されない) システムとして設計することで,楽曲を 「スキップ」 するフィードバックによって 「嫌い」 な楽曲を推定する従来手法に加え,「もっと聴く」 フィードバックを導入して 「好き」 な楽曲を推定する.さらに,「好き」 として推定された楽曲は,ユーザの集中度を行動ログから推定して 「とても好き」 か 「好き」 かを識別する.これは集中度が高い時のフィードバックは,低い時より嗜好度を強く表しているという仮説に基づく.そして,楽曲間類似度に基づく Label Spreading により,頑健にかつ再生履歴が少ない状況でも適切に楽曲を推薦することを可能にした.
著者
中野 倫靖 後藤 真孝
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.6, pp.1771-1783, 2013-06-15

本論文では,ユーザの歌声からその声色(こわいろ)変化を真似て歌声合成するシステムVocaListener2を提案する.本システムは,我々が以前開発した音高と音量のみを真似て歌声合成するVocaListenerの拡張であり,声色変化にも対応する.従来,主に声質変換やモーフィングのために,声質を操作する技術はあったが,ユーザが歌唱において意図的に変更する声色の変化を反映することはできなかった.VocaListener2を実現するために,まずVocaListenerによってユーザ歌唱の音高,音量および音素(歌詞)を真似た多様な歌声を合成して声色空間を構成し,その結果を用いてユーザ歌唱の声色変化を反映して合成する.市販の歌声合成システムを用いて実験した結果,構成された声色空間は聴取印象を反映しており,音高と音量に加えて声色変化も真似ることができていた.
著者
中野 倫靖 後藤 真孝 梶田 秀司 松坂 要佐 中岡 慎一郎 横井 一仁
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.55, no.3, pp.1222-1235, 2014-03-15

本論文では,ユーザ歌唱における顔表情を真似てヒューマノイドロボットの顔動作を生成するVocaWatcherについて述べる.ここで,我々が以前開発したVocaListenerを用い,ユーザ歌唱の歌い方(音高と音量)を真似て歌声合成も行う.従来,歌唱ロボットに関する研究はあったが,手作業による動作制御が主で,その自然さに限界があった.それに対して本研究では,単一のビデオカメラで収録した人間の歌唱動画を画像解析し,口,目,首の動作を真似て制御することで,自然な歌唱動作を生成した.ここで口の制御には,VocaListenerから得られる歌詞のタイミング情報を用いて,歌声に同期した動作を生成できる.さらに,ロボットによるより自然な歌唱を実現するために,我々が以前開発したブレス音の検出技術とVocaListenerを組み合わせ,ブレス音を真似て合成できるように拡張した.In this paper, we describe VocaWatcher that is a facial-motion generator for a singing robot by imitating user's singing. It can synthesize singing voices by using our previous VocaListener to imitate pitch (F0) and dynamics (power) of user's singing. Although singing humanoid robots have been developed with synthesized singing voices, such robots do not appear to be natural because of limitations of manual control. To generate natural singing expressions, VocaWatcher imitates a human singer by analyzing a video clip of human singing recorded by a single video camera. VocaWatcher can control mouth, eye, and neck motions by imitating the corresponding human movements. To control the mouth motion, VocaWatcher uses lyrics with precise timing information provided by VocaListener. Moreover, we extended VocaListener by combining our previous method of breath sound detection to imitate breathing sounds that make the robot singing more realistic.
著者
後藤 真孝 中野 倫靖 濱崎 雅弘
出版者
国立研究開発法人 科学技術振興機構
雑誌
情報管理 (ISSN:00217298)
巻号頁・発行日
vol.56, no.11, pp.739-749, 2014

本稿では,初音ミクとN次創作に関連した音楽情報処理の研究事例として,歌声合成技術VocaListenerと音楽視聴支援サービスSongriumを紹介する。VocaListenerは,初音ミク等の歌声合成ソフトウェアを用いて,録音された人間の歌声の事例からその歌い方(声の高さと声の大きさ)をまねて自然な歌声を合成する技術である。Songriumは,オリジナル楽曲とそれらのN次創作結果である派生作品といったさまざまな関係性を可視化できる音楽視聴支援サービスである。本稿ではさらに,より未来を見据えて自動創作と自動鑑賞の可能性を考察することで,音楽がもたらす感動の本質的な要因についても議論する。
著者
土井啓成 戸田智基 中野倫靖 後藤真孝 中村哲
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.5, pp.1-9, 2012-08-02

歌声の声質には,歌手の個人性が反映されており,他者の声質に自在に切り替えて歌うことは難しい.そこで我々は,歌声の声質を他者の歌声の声質へと自動変換することで,任意の声質での歌唱を実現する手法を提案し,歌唱という音楽表現の可能性を広げることを目指す.従来,統計的声質変換に基づく歌声声質変換が実現されていたが,提案手法では様々な声質に少ない負担で変換可能にするため,多対多固有声変換を導入する.これにより変換時に数秒程度の少量の無伴奏歌声さえあれば,任意の歌手の歌声から別の任意の歌手の歌声への声質変換が実現できる.しかし,その声質変換モデルの事前学習データとして,ある参照歌手の歌声と多くの事前収録目標歌手の歌声とのペアから構成されるパラレルデータセットが必要で,その歌声収録は困難であった.そこで提案手法では,歌唱表現を模倣できる歌声合成システム VocaListener を用いて目標歌手の歌声から参照歌手の歌声を生成することで,その学習データ構築を容易にする.実験結果から提案手法の有効性を確認した.
著者
室伏 空 中野 倫靖 後藤 真孝 森島 繁生
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.21, pp.1-7, 2009-07-22
被引用文献数
1

本研究では、既存のダンス動画コンテンツの複数の動画像を分割して連結(切り貼り)することで、音楽に合ったダンス動画を自動生成するシステムを提案する。従来、切り貼りに基づいた動画の自動生成に関する研究はあったが、音楽{映像間の多様な関係性を対応付ける研究はなかった。本システムでは、そうした多様な関係性をモデル化するために、Web 上で公開されている二次創作された大量のコンテンツを利用し、クラスタリングと複数の線形回帰モデルを用いることで音楽に合う映像の素片を選択する。その際、音楽{映像間の関係だけでなく、生成される動画の時間的連続性や音楽的構造もコストとして考慮することで、動画像の生成をビタビ探索によるコスト最小化問題として解いた。This paper presents a system that automatically generates a dance video clip appropriate to music by segmenting and concatenating existing dance video clips. Although there were previous works on automatic music video creation, they did not support various associations between music and video. To model such various associations, our system uses a large amount of fan-fiction content on the web, and selects video segments appropriate to music by using linear regression models for multiple clusters. By introducing costs representing temporal continuity and music structure of the generated video clip as well as associations between music and video, this video creation problem is solved by minimizing the costs by Viterbi search.
著者
後藤 真孝 吉井 和佳 藤原弘将 Matthias Mauch 中野 倫靖
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1363-1372, 2013-04-15

本論文では,音楽音響信号理解技術によって音楽の聴き方をより豊かにするための能動的音楽鑑賞サービスSongleについて述べる.従来,研究開発段階の音楽インタフェースや技術を,日常生活で人々に使ってもらうのは容易でなかった.Songleでは,Web上で人々に能動的音楽鑑賞インタフェースを体験してもらうことで,音楽鑑賞がより能動的で豊かになる質的な変化を日常生活で起こすことを目指す.そして,Web上の任意の楽曲に対して楽曲構造,階層的なビート構造,メロディライン,コードの4種類の音楽情景記述を自動推定して可視化することで,それを見て再生したユーザの音楽理解が深まることを可能にする.しかし,自動推定では誤りが不可避である.そこで効率的な誤り訂正インタフェースをWeb上で提供し,誤りを人手で自発的に訂正する貢献を促す.そうした不特定多数による訂正がユーザ体験の改善に結び付くことで,Songleのさらなる利用を促していく.
著者
渡邉 研斗 松林 優一郎 深山 覚 中野 倫靖 後藤 真孝 乾 健太郎
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-116, no.16, pp.1-12, 2017-05-08

本研究では楽曲のメロディを考慮した歌詞の自動生成手法を提案する.人間の作詞現場においては,予め作曲されたメロディに対して歌いやすい歌詞を創作する 「曲先」 と呼ばれる方法が広く行われている.しかしながら,自動歌詞生成の既存手法の多くは,韻やシラブルに基づく生成手法を提案しているものの,メロディと歌詞の関係を考慮しておらず,メロディの区切りと単語の区切りが一致しないような不自然な歌詞を生成してしまう問題がある.本研究では,メロディの音符と歌詞の読みが対応づいたデータを用いて,メロディの音の長さ ・ 休符の位置 ・ 繰り返し構造などの特徴と歌詞の相関を詳しく分析し,その結果をもとにした自動歌詞生成モデルを構築する.結果として作成されたモデルにより,休符や長い音符付近で行や段落 (連) が区切れている自然な歌詞が自動生成された.
著者
コンヴェール マクシム 深山 覚 中野 倫靖 高道 慎之介 猿渡 洋 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2018-MUS-120, no.1, pp.1-8, 2018-08-14

ニューラルネットワークは自動和声付けにおいて有望な技術である.膨大なデータセットを元に,入力と出力の複雑な依存関係を学習することができるため,旋律と和音の依存関係も扱うことができる.ニューラルネットワークの性能はその入力と出力情報の表現方法が強く影響する.しかし,従来の自動和声付け研究では,出力情報である和音の表現方法について深くは検討されておらず,テンションノートといった和音の詳細な構造が最大限活用されてこなかった.和音の表現方法を変えることで,旋律と和音の関係を更に細かく学習できると考えられる.そこで本研究では,和音の表現方法の違いが Recurrent Neural Network (RNN) による自動和声付けの性能にどれほど影響するかを調査する.従来の表現方法を含む 4 つの異なる和音表現方法に基づいて Gated Recurrent Unit (GRU) を用いたニューラルネットワークを構築し,それらの性能を比較した.実験の結果,和音の構成音を陽に表現した表現方法を用いると,従来の和音ラベル形式を使った場合に近い性能に達成するだけでなく,構成音の細かな違いに対応できる多機能な自動和声付けモデルの構築を可能とすることがわかった.