著者
室伏 空 中野 倫靖 後藤 真孝 森島 繁生
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2009-MUS-81, no.21, pp.1-7, 2009-07-22

本研究では、既存のダンス動画コンテンツの複数の動画像を分割して連結(切り貼り)することで、音楽に合ったダンス動画を自動生成するシステムを提案する。従来、切り貼りに基づいた動画の自動生成に関する研究はあったが、音楽{映像間の多様な関係性を対応付ける研究はなかった。本システムでは、そうした多様な関係性をモデル化するために、Web 上で公開されている二次創作された大量のコンテンツを利用し、クラスタリングと複数の線形回帰モデルを用いることで音楽に合う映像の素片を選択する。その際、音楽{映像間の関係だけでなく、生成される動画の時間的連続性や音楽的構造もコストとして考慮することで、動画像の生成をビタビ探索によるコスト最小化問題として解いた。
著者
中西恭介 山口隆 卯田駿介 角谷亮祐 尹玄玄 倉知尚貴 馬場哲晃 串山久美子
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.10, pp.1-3, 2013-12-16

Music Puzzle はスライドパズルブロックを音楽シーケンサの各ブロックに見立てることで,視覚と聴覚を同時に利用してパズルを解くゲームアプリケーションである.パズルブロックにメロディやリズムを割り当てることで,ブロックをスライドして動かすたびに,絵柄だけでなく自動で音楽も変化してループ演奏される.ブロックに描かれている画像だけでなく,演奏されるメロディの違いを攻略のヒントにすることができる.
著者
松村 崇志 井上 真郷
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013-MUS-101, no.13, pp.1-6, 2013-12-16

平均律,純正律は音律 (音楽で使われる音の周波数比の決め方) の一種で,代表的な楽器はそれぞれピアノ,バイオリンである.何れも基準音 (ピアノでは 88 鍵盤の中央近くのラの周波数を 440Hz としたりする) に対して相対的な周波数比により各音の周波数を定め,平均律の場合は 「半音上がる毎に 2 の 1/12 乗倍」 と,無理数を用いて決める.一方純正律は小さな正の整数の比を用いるため,和音 (異なる高さの音を複数同時に鳴らす) の構成音が調和してうなりのない美しいものとなる.しかし,純正律はハ長調などの調毎に周波数比率が異なるため,ピアノなどの演奏中に再チューニングが出来ない楽器では,転調が出来ないという欠点がある.本研究では matching pursuit とピアノの特性を利用して,一つのピアノで演奏された楽曲の録音データを純正律で演奏されたような楽曲に変換する手法を提案する.これにより平均律楽器の表現の幅が広がる事が期待できる.結果,時間-周波数スペクトルを期待通りに変換でき,音楽経験の乏しい人でも違いを聞き分けることが出来た.
著者
糸山 克寿 坂東 宜昭 粟野 浩光 合原 一究 吉井 和佳
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2015-MUS-107, no.55, pp.1-6, 2015-05-16

本稿では,映像と音響信号に対して統合的に非負値行列因子分解 (NMF) を行うことでカエルなどの動物の合唱行動を分析する手法について報告する.カエルをはじめとした様々な動物は合唱 (音声によるコミュニケーション) を行うことが知られており,各個体がどのように合唱に参加しているかを調べることはその生態の解明に重要である.空間的な音場を光に変換するデバイスであるカエルホタルを用いて,ビデオカメラで録画した映像およびモノラル音響信号に対して統合的にNMFを行うことで,各個体の鳴き声を分離抽出する.カエルホタルの輝度とパワースペクトルの振幅をNMFのアクティベーションとして共有させることで,スペクトル形状が類似した同種別個体の鳴き声を相異なる基底へと分解する.
著者
長嶋 洋一
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-85, no.1, pp.1-6, 2010-05-20

これまで 3 世代の筋電楽器を開発してきたが、新しい第 4 世代の筋電楽器の研究開発に向けて、新たな筋電情報センシング手法を実験・検討し、また手首から前腕で計測検出できる音楽表現について検討している。
著者
加藤淳 中野倫靖 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.15, pp.1-7, 2014-08-18

本稿では、歌詞を歌声と同期してアニメーションさせる Kinetic Typography と呼ばれる動画表現の制作環境 TextAlive を提案する。既存の制作ツールでは、歌詞と歌声の同期を手作業で取り、文字や単語、複数単語から成るフレーズに対して個別に望みの動きを設計する必要があった。その際は、動きを規定するアルゴリズムのパラメタを、スライダーなどの汎用 GUI で調整して試行錯誤を重ねていた。一方、本制作環境では、歌詞と音楽の時間的対応付けを自動で推定し、動きのアルゴリズムに対する初期パラメタを自動生成する。さらに、動きのアルゴリズムを編集できるコードエディタを備え、プログラマがパラメタ調整に適した専用 GUI を容易に提供できるフレームワークを提供する。これにより、TextAlive のユーザは Kinetic Typography を一から作る必要がなくなり、初めに時間合わせなどを行う手間をかけずに済む。また、歌詞の動きをインタラクティブかつグラフィカルに設計できるようになる。
著者
菅野沙也 伊藤貴之 高村大也
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.4, pp.1-6, 2014-11-13

我々は文書に印象の合った音楽を生成・提供することで,文書の内容に直接言及することなくその印象を理解・伝達することが容易になり,文書を鑑賞・共有する楽しみを拡げられるのではと考えている.そこで本報告では,文書の印象や感情に基づいた楽曲生成の一手法を提案する.本手法では前処理として,日本語を構成する各単語に対する感性極性値を記録した辞書を作成する.またコード進行とリズム進行をユーザーに聞かせてその印象を数値入力させることで,コード進行やリズム進行とその印象との関係を学習させる.続いてユーザーが文書を入力すると,まず文書の形態素解析結果に対して感性極性辞書を参照することで文書の印象値を求める.続いて文書の印象値に近い印象をユーザーが有するコード進行とリズム進行を,文書の場面の前後関係も考慮しながら選出する.このようにして選出されたコード進行とリズム進行を合成することで楽曲を生成し,ユーザーごとに提供する.
著者
狩野直哉 松原正樹 寺澤洋子 平賀瑠美
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.4, pp.1-7, 2014-08-18

聴覚障害者にとって,日常生活における複雑な音情景の中から,必要な音を選択して認識し理解することは困難である.そういった音聴取能力を向上させることは聴覚障害者の手助けになり,QOL の向上につながる.我々は,聴覚障害者の音聴取能力向上トレーニングを目的としたタッピングゲームの開発を行った.タッピングゲームは,聴覚トレーニングに音楽とゲームの要素を取り入れたものであり,音聴取能力向上効果のみならず,聴覚障害者が意欲的に継続できることを意図している.タッピングゲームは二度,聴覚障害学生にプレイしてもらい,ディスカッションを行った.本稿では,タッピングゲームの開発とディスカッションの様子について報告する.
著者
川上 大輔 金子 仁美 嵯峨山 茂樹
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2010-MUS-84, no.6, pp.1-6, 2010-02-08

和声は西洋音楽の重要な要素であり、特に音楽音響信号からの和声推定や自動採譜などにおいては、精密な和声進行の統計的モデルが必要である。筆者らは、和声に関する研究推進のため、人手による和声ラベル作業の容易さと、コンピュータ可読性の両立を主眼にして、和声記述仕様を策定し、それに基づいて和声の18世紀から20世紀初頭までのクラシック音楽作品60曲に機能和声ラベルデータを付与した。その和声系列を統計解析し、音楽的な知見から説明を試みる。また、統計的和声モデルとしてN-gramモデルに関して、Nの値、スムージング法等を検討する。調や機能和声などを反映した詳細な和声進行のモデルは、従来の和声モデルよりperplexityを低くできることを示す。
著者
池宮由楽 糸山克寿 吉井和佳 奥乃博
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-104, no.23, pp.1-6, 2014-08-18

本稿では,音楽音響信号に含まれる歌声の基本周波数 (F0) 軌跡に対して歌唱表現 (ビブラート・グリッサンド・こぶし) を転写することを可能とするシステムを提案する.能動的音楽鑑賞インタフェースは,エンドユーザのインタラクティブな音楽鑑賞を実現することを目的とした研究アプローチである.これには既存楽曲の加工支援も含まれ,歌声に関連するものでは,声質変換や歌声分離などの研究がなされている.本研究では,歌唱の歌い回しの加工を扱い,特に混合音中の歌声の F0 軌跡を任意に編集するインタフェースを実現する.ユーザは,歌声の任意の箇所を指定し,好みの歌唱表現を転写することで,歌い回しを自由に加工することができる.また,事前に市販楽曲からプロ歌手の歌唱表現を蓄積したデータベースを作成し,ユーザはそのデータベースから歌唱表現を参照することで直感的に転写を行うことが可能となる.歌唱表現の転写は,対数周波数軸において選択的に歌声のスペクトルのみをシフトさせ,伴奏音への影響を抑圧しながら歌声の音高を操作することで行われる.このとき,音韻性を保持するためスペクトル包絡を用いて音色の補正を行う.実際にユーザが表現の転写箇所を指定したり,F0 の存在範囲を提示するため,Graphical User Interface (GUI) の作成を行っている.実験では,音色補正の有効性やユーザ入力を用いた F0 推定の頑健性などを確認した.
著者
多田 圭吾 岡村 亮吾 山西 良典 加藤 昇平
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2011, no.12, pp.1-6, 2011-07-20

近年,Desktop Music(DTM) 関連機器やソフトウエアなどの発展・普及により,音楽を嗜む一環として作曲が注目されているが,作曲は高度な知識や経験を必要とする.そこで本研究では,楽譜コンテキストのベイジアンマイニングに基づく自動伴奏付与システムを提案する.提案システムでは,音楽の時間的変動を楽譜コンテキストとして扱い,ベイジアンマイニングを用いて学習曲における音楽構成要素間の因果関係を学習する.提案システムは,ユーザの音楽経験の有無に関わらず,任意のニュアンスが付与された伴奏を生成する.伴奏生成実験および主観評価実験によって,入力されたメロディに応じて学習曲のジャンル的ニュアンス,および,印象的ニュアンスが付与された伴奏が生成されることを確認し,また既存システムとの比較実験により提案システムの高い有用性を確認した.Present days, more public interested in music focuses on composing as one of the forms to enjoy music. However, it is difficult for people who does not have sufficient musical experiences. Thus, we proposed an automated accompanying system focusing on bass and drums by using Bayesian mining of the score context. In this study, we explained themusical temporal variates as the score context, and learned the nuance of the music in the database using Bayesian mining. In a composing experiment, we obtained various accompanies depending on the music database used for learning, and thenuance of the music in the database. And, we confirmed the availability of the proposed system through three types of subjective evaluation experiment. We believe that this system enable us to compose music with accompany that has the nuance of the music in the database, even if user does not have much musical experimences or not.
著者
中村 滋延
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2009-MUS-83, no.16, pp.1-5, 2009-11-28

“第三の音楽”と呼ばれる音楽がある.西洋芸術音楽 (クラシック) や “現代音楽” とは無関係であり,かつロックやポップスのような大衆音楽とも無関係な 「現代の音楽」 である.本発表ではその “第三の音楽” の紹介を通して,コンピュータ音楽の新しい傾向のひとつについて解説する.
著者
橘 秀幸 小野 順貴 嵯峨山 茂樹
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.12, pp.1-6, 2009-07-22

本稿では,歌声と楽器音を両方含むような音楽音響信号から,歌声成分を強調,または抑圧する信号処理手法について述べる.歌声に相当する成分を検出するために,本稿ではスペクトルの時間変化に由来するスペクトログラムの特徴的な形状に着目する.歌声にはスペクトルの時間変化や旋律的な動きがあるため,スペクトルの形状が長時間一定であることはなく,またこれらの時間変化の影響で歌声のスペクトルは周波数軸方向にある程度の幅を有するという点で特徴的である.このような特徴をスペクトログラムの異方性という観点から捉えると,歌声と楽器音の滑らかさは異方的であり,異方的な信号を分離する手法を使って歌声と伴奏を分離することができる。本稿ではそのような手法を具体的に提案し,実際の音楽信号を用いた実験を行った結果,聴感上,歌声成分が強調/抑圧された信号が得られることを確認した.We address a problem of enhancing or suppressing singing voice components in music audio signals. To achieve the purpose, we focus on peculiar spectral shapes of singing voice: they are not maintained unchanged for a while, and they occupy broad bandwidth, both of them is caused by spectral fluctuations and melodic nature of singing voice. When we regard those characteristic shapes as anisotropic smoothness of spectrogram, we can separate a music into singing voice and accompaniment, by applying a method which separates a signal into anisotropic components. In this paper, we propose a signal processing algorithm to enhance/suppress singing voice, based on those natures of spectral shapes of singing voice. We also conducted an auditory evaluation to confirm the effectivenes of the method using real music audio signals.
著者
澁谷 崇 東山 恵祐 安部 素嗣 西口 正之
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2011, no.17, pp.1-8, 2011-07-20

本稿では,テレビや映画などで用いられる背景音楽を音楽データベースと高速に一致検索する手法を提案する.我々は背景音楽よりも大きい前景音に対してロバストかつ高速に一致検索を行うために,音楽の持続性トーン成分に着目し,それを用いた特徴量 "トーン構造記述子" を提案する.トーン構造記述子を用いた実験では,S/N 比-20dB においても再現率が 96% 以上で,かつパーソナルコンピュータを用いてもリアルタイムに 10 万曲以上検索可能であることを示す.This paper presents an extremely fast method for identifying background music with a piece of music in large database. We focus on continuous tonal components, which make the identification robust to loud foreground sounds, and propose a feature based on continuous tones, "Tonal Structure Descriptor". In the experiments, we demonstrate that our descriptor enables a personal computer to compare background music with more than 100, 000 tracks in real time, and realize more than 96% Recall at -20dB S/N Ratio.
著者
川岸基成 川渕将太 宮島千代美 北岡教英 武田一哉
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.13, pp.1-6, 2014-02-16

合唱歌唱時に生じる歌声の "引き込み" を利用して歌唱の基本周波数 (F0) を目標とする音高に誘導制御することを試みる.我々はこれまで,他者の歌声を受聴しながら歌唱したときの歌声への影響を歌声の引き込みという観点から分析し,1 つの質点と 2 つのばねで構成されるばね質量系を用いて,歌声の F0 動特性をモデル化した.本稿では,合唱歌唱の F0 動特性を表現するばね質量モデルを利用して歌唱の F0 を制御する手法を提案する.本手法では,合唱歌唱のばね質量モデルに基づき各歌唱者の引き込みの特徴を分析し,引き込みを考慮した誘導音を合成,受聴させることにより,目標音高に近づくように F0 を制御する.評価実験では,目標音高を受聴しながら歌唱した歌声と誘導音高を受聴しながら歌唱した歌声を目標音高との RMSE で評価し,誘導音高を受聴することで被験者 8 人中 5 人の RMSE が減少するという結果を得た.
著者
田坂 直季 小坂 直敏
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.21, pp.1-5, 2012-08-02

音響信号に対する時間長の伸縮やピッチ変換は,通信や音楽応用などにおいて重要である.また,これらの処理に優れた方式には,時間領域での TD-PSOLA 方式と,周波数領域でのフェーズボコーダ方式がある.本稿では,われわれが新たに提案したフェーズボコーダ方式と,TD-PSOLA 方式について,時間伸縮,ピッチ変換を適用し,品質を比較して評価する実験を行い,その性能を評価した.その結果,いずれの方式も変換の度合いが大きくなると品質が劣化すること,時間伸縮ではフェーズボコーダの方が音質がいいことが確認できた.For time-scaling and pitch conversion of acoustic signal, TD-PSOLA in the time-domain and Phase-Vocoder in the frequency-domain are well known framework. We apply time-scaling and pitch conversion to newly proposed phase vocoder and TD-PSOLA, and run an evaluation test of sound quality for these two synthesis methods.
著者
森勢将雅 中野 皓太 西浦 敬信
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.5, pp.1-8, 2010-07-21
被引用文献数
2

我々は,実時間で歌唱力を補正することにより「誰が」「どんな曲でも」「簡単に」歌える新たなエンタテインメントについて研究を進めている.これまで使われてきたカラオケは,歌唱力の高い使用者は楽しめるが,歌唱力の低い使用者が楽しめるものでは無い.本稿では,事前に収録されたプロ歌手の歌声から歌唱力に相当するデータを抽出し,使用者の歌唱にリアルタイムで転写することにより,実時間歌唱力補正を実現するシステムについて述べる.本システムにより,歌唱力の低い使用者は歌唱力補正機能により楽しむことができ,歌唱力の高い使用者にとっても,他者に自らの歌唱力を提供するという新たな楽しみを与える利点がある.ここでは,実時間歌唱力補正を実現するための基盤技術,および計算速度を指標とした客観評価により有効性について論じる.A new Karaoke entertainment to happily sing any music is proposed based on the real-time singing style correction. Although the conventional Karaoke application has entertained the skilled user, the unskilled user cannot enjoy it. The proposed system can solve the problem by the real-time singing style correction based on a professional singer's singing. In this paper, the method to extract the parameter about singing style is proposed to correct the singing style of the user. The entertainment for both the skilled users and unskilled users is also discussed.
著者
浜中 雅俊 平田 圭二 東条 敏
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.21, pp.1-7, 2014-08-18

本稿では,タイムスパン木の部分木一致率に基づいた楽曲間の類似度について述べる.従来,音楽理論 GTTM に基づく分析によって求まるタイムスパン木に基づく楽曲間類似度が定義されていたが,条件が厳密であるために多くの楽曲間で全く類似性を示さなかった.そこで本研究では,類似度判定基準を緩和し,タイムスパン木が部分的に一致する場合,その一致率で類似度を表すことを試みる.In this report, we propose a melodic similarity based on matching rate of time-span subtrees. We previously proposed a melodic similarity based on time-span tree based on the music theory GTTM, however almost all the pairs of melodies are not similar, because the definition of the similarity is too strict. Therefore, we attempt to express a melodic similarity by using matching rate of time-span subtrees for weaken the condition for calculating the similarity.
著者
中村友彦 吉井和佳 後藤真孝 亀岡弘和
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.11, pp.1-6, 2014-08-18

本論文では,調波楽器音の周波数特性とドラムの音色を,音楽音響信号間で楽譜を用いずに置換するシステムを提案する.このシステムでは,まず置換元の音楽音響信号 (インプット) と置換先の音楽音響信号 (リファレンス) の振幅スペクトルをそれぞれ調波楽器音成分と打楽器音成分のスペクトルに分離し,それぞれの成分に対して独立に処理を行う.調波楽器音成分のスペクトルの周波数特性をスペクトルの山周辺と谷周辺を通る 2 つのスペクトル包絡によって特徴付け,インプットの調波楽器音成分の振幅スペクトルを,インプットとリファレンスの調波楽器音成分のスペクトル包絡が類似するように変形する.インプットとリファレンスの打楽器音成分のスペクトログラムは,各ドラム楽器毎のスペクトログラムに分離した後,ユーザによって指定されたインプットのドラム楽器の音色をリファレンスのドラム楽器の音色に置換する.主観評価実験により,提案するシステムが周波数特性とドラムの音色を適切に置換できることを確認した.
著者
吉井 和佳 後藤 真孝
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2011, no.2, pp.1-10, 2011-07-20

本稿では,和音系列に対する統計的言語モデルとして,ノンパラメトリックベイズ理論に基づく n グラムモデルについて述べる.従来の経験的なスムージングに基づく n グラムモデルには,主に三つの問題,すなわち,理論的な裏付けがなく改善が困難であること,n の値を一意に指定しなければならないこと,考慮する和音の種類 (語彙) は恣意的に決めざるを得ないこと,が存在した.これらの問題を解決するため,我々は語彙フリー無限グラムモデルを提案する.このモデルは,あらゆる音の組合せを和音として許容するため語彙が不要で,和音系列中の各和音が異なるコンテキスト長 (理論上は無限でもよい) を持つことを許容する.ある和音系列が与えられた上で,次の和音を予測するときには,n の値を一意に決めることなくあらゆる可能性を考慮できる.また,これまで観測したことがない和音が出現したとしても,その和音のゼログラム確率 (構成音の同時出現確率) をこれまで観測してきた和音の構成音に基づいて計算することで,適切に n グラム確率を推定することができる.実験の結果,従来の n グラムモデルよりも低いパープレキシティを達成することが分かった.This paper presents a novel nonparametric Bayesian n-gram model as a statistical language model for symbolic chord sequences. Standard n-gram models based on heuristic smoothing have three fundamental problems―that they have no theoretical foundation, that the value of n is fixed uniquely, and that a vocabulary of chord types is defined in an arbitrary way. To solve these problems, we propose a vocabulary-free infinity-gram model. It accepts any combinations of notes as chord types and allows each chord appearing in a sequence to have an unbounded and variable-length context. Our experiments showed that the perplexity obtained by the proposed model is significantly lower than that obtained by the state-of-the-art models.