著者
後藤 真孝 吉井 和佳 中野 倫靖 緒方 淳
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

本招待講演ではメディア処理におけるクラウドソーシング利用の先駆事例として、音楽理解技術によって音楽の聴き方を豊かにする能動的音楽鑑賞サービスSongleと、音声認識技術によって動画中の音声を書き起こせる音声情報検索サービスPodCastleを紹介する。いずれも自動理解誤りの訂正インタフェースをWeb上で提供し、不特定多数による自発的な訂正がユーザ体験の改善に結びつくことでさらなる利用を促していく。
著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.23, pp.1-7, 2013-08-24

本稿では、複数の歌声から得られる音響特徴量をトピックモデルによって分析することで、歌声の特性を説明する新しい手法を提案する。従来、歌手の特性 (性別や声種等)、歌い方の特性 (声区やF0軌跡のモデル化等)、聴取印象 (明るさ等)、楽曲の特性 (楽曲ジャンルや歌詞等) を分析・推定したりする研究はあったが、複数の歌声から分かるような潜在的な意味を分析する研究はなかった。本稿では、伴奏と歌声を含む音楽音響信号から、歌声の線形予測メルケプストラム係数 (LPMCC) と ΔF0 を特徴量として自動推定した後、潜在的ディリクレ配分法 (LDA) で分析を行う。LDA によって得られた潜在意味 (トピック) の混合比が歌手名同定にも適用可能であることを示し、声道長の正規化に相当する処理を導入することで、性別を超えた類似歌手検索を実現することも示す。また、トピックの混合比を用いて、各トピックにおいて支配的な曲の歌手名をタグクラウドのように提示することで、トピックや歌声の意味を可視化する方法を提案する。
著者
中野倫靖 吉井和佳 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.2, pp.1-7, 2014-08-18

本稿では、歌声と伴奏を含む音楽音響信号を対象として、「ボーカルの歌声」、「楽曲中の音色」、「リズム」、「和音進行」 の確率的生成モデルを構築し、モデルからの生成確率を計算することで、「楽曲間の類似度」 や 「楽曲のありがち度」 を推定する手法を提案する。歌声、音色、リズムに関しては、LPMCC、MFCC、Fluctuation Pattern に基づく音響特徴量を抽出し、それぞれに関して潜在的ディリクレ配分法 (LDA) を用いたトピック分析を行う。個々の楽曲毎に学習したモデルと全曲から学習したモデルから、楽曲における各音響特徴量の生成確率を計算することで、それぞれ楽曲間の類似度とありがち度を推定した。和音進行に関しては、能動的音楽鑑賞サービス Songle のコード認識結果に対し、可変長 Pitman-Yor 言語モデル (VPYLM) でモデル化した。ここでは、個々の楽曲毎に学習したモデルと全曲で学習したモデルから、各曲のパープレキシティの逆数 (各和音の平均的な生成確率) を計算することで、それぞれ類似度とありがち度として推定した。本稿では、ポピュラー音楽 3278 曲を対象として分析した結果を報告する。
著者
持橋 大地 吉井 和佳 後藤 真孝
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-213, no.11, pp.1-8, 2013-09-05

本論文では,単語に潜在空間における座標を明示的に与え,その上でのガウス過程を考えることで,通常の混合モデルに基づくトピックモデルより高精度なテキストモデルが得られることを示す.提案法は潜在層が二値ではなく,ガウス分布に従う RBM の生成モデルともみることができ,MCMC により単語の潜在座標を学習することは他の多くの応用や,可視化にも自然に繋がることができる.
著者
津島 啓晃 中村 栄太 糸山 克寿 吉井 和佳
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2017-MUS-116, no.14, pp.1-7, 2017-08-17

本稿では,音楽コーパスから和音系列とメロディに関する生成規則を統計的に学習し,それに基づいてメロディへの和声付けを行う手法を示す.従来の和声付け手法には,一拍ごとのコードの遷移を表現した隠れマルコフモデル(HMM)に基づく手法がある.しかしこの手法では,音楽理論において重要とされているコードのリズム,コードの機能(tonic, dominant, subdominant),コードの階層構造を明示的に表現できない.この問題を解決するため,確率的文脈自由文法による和音系列生成モデル,拍節マルコフモデルによるコードのリズム生成モデル,コードの条件付きマルコフモデルによる音高系列生成モデルからなる階層的生成モデルを提案する.さらに,提案モデルを用いてメロディに対する和音系列の推定を行うため,潜在変数であるコード記号とそのオンセット位置のそれぞれをsplit-mergeサンプリングという新しいサンプリング手法を含むメトロポリス・ヘイスティングス法に基づいて更新する手法を提案する.評価実験よりHMMに基づく手法に対して提案手法の和声付けタスクにおける精度が向上したことを示せた.
著者
吉井和佳 糸山克寿 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.9, pp.1-8, 2014-08-18

本稿では,多数の楽器音が重畳している音楽音響信号を,音の三要素である音高 (基本周波数)・音色 (スペクトル包絡)・音量に分解するための確率的ソース・フィルタモデルについて述べる.ソース・フィルタ理論は楽器音分析に広く利用されており,楽器音のフーリエ変換スペクトルは,音源信号の基本周波数に起因するスペクトル微細構造と楽器音の音色を表すスペクトル包絡との積に分解される.このとき,スペクトル包絡が全極型モデルで表現できると仮定すると,理論的には線形予測分析 (LPC) を用いて,線形周波数領域でスペクトル包絡を推定することができる.しかし,実際には,調波構造のピークのみがスペクトル包絡からの信頼できるサンプルであるとみなせるため,スペクトル包絡推定に全周波数帯域を利用することは適切ではない.この問題の解決法のひとつに離散全極型モデルが知られているが,多重音に対して適用することはできなかった.本研究では,離散全極型モデルを LPC の多重音拡張である複合自己回帰モデルの枠組みに組み入れることで,調波構造が複数重畳した音響信号を扱うことができる無限重畳離散全極型モデルを提案する.本モデルは,人間の聴覚特性に則した対数周波数領域で定式化されるノンパラメトリックベイズモデルであり,適切な個数のスペクトル包絡とそこからサンプルされた適切な個数の調波構造を推定することができる.実験の結果,提案手法の有効性を確認した.
著者
吉井 和佳 後藤 真孝
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.20, pp.1-6, 2009-07-22
被引用文献数
1

本稿では,楽曲のライムライン上の適切な時刻に適切なコメントを自動付与するシステム MusicCommentator について述べる.近年,ユーザが動画全体に対してではなく,動画中のある時刻に対してコメントできるオンライン動画共有サービスが人気を博している.本研究では,音楽演奏の動画に含まれる音楽音響信号を対象とし,音響的特徴量とコメント特徴量との確率的同時生成モデルを提案する.システムはまず,多くの楽曲とそれに付与されたコメントから確率モデルを学習する.その後,別の楽曲が入力として与えられた場合に,どの時刻に対して,どのような単語を用いてどのくらいの長さのコメントを新たに付与できるかを確率モデルを用いて推定する.このとき,言語的制約として単語間の連接を考慮し,文の合成をおこなう.実験の結果,入力楽曲の音響的特徴量だけを用いてコメント生成した時に比べ,すでに付与されたコメントを参考にしてコメント生成を行うと精度が向上することがわかった.This paper presents a system called MusicCommentator that suggests suitable comments for appropriate temporal positions in a music clip. Recently, an online video sharing service in which users can provide comments for temporal events occurring in video clips not for entire clips has gained a lot of popularity. We focus on musical audio signals included in video clips of music performances and propose a probabilistic model that jointly generates acoustic features and comment features. The model can be trained by using many music clips and their corresponding comments. Given a new clip as input, the system then determines appropriate temporal positions of comments and estimates their content and length. Finally, comment sentences are generated by taking word concatenations into account as language constraints. Our experimental results showed that comment accuracy was improved when the system used not only acoustic features of an input clip but also users' comments in the clip.
著者
後藤 真孝 吉井 和佳 藤原弘将 Matthias Mauch 中野 倫靖
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.4, pp.1363-1372, 2013-04-15

本論文では,音楽音響信号理解技術によって音楽の聴き方をより豊かにするための能動的音楽鑑賞サービスSongleについて述べる.従来,研究開発段階の音楽インタフェースや技術を,日常生活で人々に使ってもらうのは容易でなかった.Songleでは,Web上で人々に能動的音楽鑑賞インタフェースを体験してもらうことで,音楽鑑賞がより能動的で豊かになる質的な変化を日常生活で起こすことを目指す.そして,Web上の任意の楽曲に対して楽曲構造,階層的なビート構造,メロディライン,コードの4種類の音楽情景記述を自動推定して可視化することで,それを見て再生したユーザの音楽理解が深まることを可能にする.しかし,自動推定では誤りが不可避である.そこで効率的な誤り訂正インタフェースをWeb上で提供し,誤りを人手で自発的に訂正する貢献を促す.そうした不特定多数による訂正がユーザ体験の改善に結び付くことで,Songleのさらなる利用を促していく.
著者
呉 益明 Tristan Carsault 中村 栄太 吉井 和佳
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2019-MUS-124, no.5, pp.1-6, 2019-08-20

本稿では,正解コードラベル付きの音楽音響信号 (教師ありデータ) に加えて,ラベルが付与されていない音響信号 (教師なしデータ) を同時に利用するための,深層ニューラルネットワーク (DNN) に基づくコード推定法について述べる.従来の DNN に基づく識別的アプローチは,大量の教師ありデータを用いることで優れた推定精度を達成できるが,コードラベルの付与には多大な労力が必要であり,精度向上には限界があった.一方,隠れマルコフモデルなどの確率モデルに基づく生成的アプローチは,原理的に半教師あり学習が可能であるものの,モデルの表現力の貧弱さから,推定精度の面で劣っていた.これらの問題を解決するため,本研究では,高い表現力を持つ DNN に基づく深層生成モデルと,償却型変分推論法に基づく半教師あり学習法を提案する.具体的には,まず,コードラベル系列と音響テクスチャ系列を潜在変数とし,音響的特徴量を観測変数とする生成モデルを定式化する.観測変数が与えられた際に,潜在変数の事後分布を推定するため,音響的特徴量からコードラベル系列を推定する識別モデルと,音響的特徴量とコードラベル系列から音響テクスチャ系列を抽出する推論モデルを導入する.与えられた音楽音響信号に対して,教師ラベルの有無に関わらず,変分自己符号化器の枠組みでこれら三つの深層モデルを同時最適化することができる.実験の結果,教師なしデータに対しても,コードラベル情報と音響テクスチャ情報が適切に分離された表現学習を行うことができること,半教師あり学習を行った識別モデルが,教師ありデータのみで学習した識別モデルよりも高い認識精度を実現できることを確認した.
著者
浜中 雅俊 東条 敏 平田 圭二 吉井 和佳 北原 鉄朗
出版者
国立研究開発法人理化学研究所
雑誌
基盤研究(B)
巻号頁・発行日
2021-04-01

メロディレンダリングの自動化を達成する.構築するシステムではまず,ユーザが作成中のメロディで変更 したい部分を選択する.すると,タイムスパン木分析器が付近のメロディを分析しタイムスパン木が抽出され る.次に,メロディレンダリングによって,タイムスパン木の構造を維持しながら差し替えできるメロディ候補が複数作成される.そして,メロディ候補が提示されユーザが選択する.これを繰り返していくことでメロディに変更を加え,メロディ全体がユーザの意図に近づいていく.レンダリングシステムは,作曲家の生産性を向上するツールとなることが期待される.
著者
中村 栄太 齋藤 康之 吉井 和佳
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2019-MUS-124, no.12, pp.1-16, 2019-08-20

ピアノ運指の自動推定は,音楽演奏過程を情報学的に理解するために重要であり,演奏支援や演奏学習支援技術へ応用可能である.運指の良さを定義する自然な方法は演奏の制約やコストのモデルを構成することであるが,一般的にこれらのモデルでは適切なパラメータの値を見つけるのは難しい.本稿では,統計モデルに基づくデータ駆動型のアプローチを考え,与えられた運指の自然さを確率に基づいて記述する方法について調べる.具体的には,2種類の HMM (隠れマルコフモデル) とその高次の拡張を構成する.比較手法として,DNN (深層ニューラルネットワーク) に基づく方法も調べる.新しく公開したピアノ運指のデータセットを用いて,これらの手法の学習と評価を行い,制約に基づく代表な手法との比較評価も行う.評価に関しては,運指の個人的差異を考慮して,複数の正解運指データがある場合に使える新たな評価指標を考案した.評価の結果,高次 HMM に基づく手法がその他の手法よりも推定精度が高いことが明らかになった.運指モデルに基づく演奏難易度の定式化およびピアノ用編曲への応用についても議論する.
著者
安部 武宏 糸山克寿 吉井 和佳 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.3, pp.1054-1066, 2009-03-15
被引用文献数
1

本稿では,ある音高を持つ楽器音をもとにして,音色の歪みを抑えながら任意の音高を持つ楽器音を合成する手法について述べる.我々は音色の聴感上の差に関する音響心理学的知見に基づき,楽器音のスペクトログラム上で観察される音色特徴量として,(i) 倍音ピーク間の相対強度,(ii) 非調波成分の分布,(iii) 時間方向の振幅エンベロープの3つを定義する.まず,もとになる楽器音の音色特徴量を分析するため,糸山らの調波·非調波統合モデルを用いて楽器音を調波構造と非調波構造に分離する.音高操作時には,特徴量(i),(ii) の音高依存性を考慮しなければならない.そのため,音高に対する特徴量を3次関数で近似し,所望の音高における特徴量の値を予測する.32種類の楽器に対して音高操作を試みたところ,音高依存性を考慮しない場合と比べて合成音と実際の楽器音との距離が,スペクトル距離尺度では64.70%,MFCC距離尺度では32.31%減少し,手法の有効性が確かめられた.This paper presents a synthesis method that can generate musical instrument sounds with arbitrary pitches from a given musical instrument sound while constraining distorting timbral characteristics. Based on the psychoacoustical knowledge on auditory effects of timbre, we define timbral features on the spectrogram of a musical instrument sound as (i) relative amplitudes of harmonic components, (ii) distribution of inharmonic components, and (iii) temporal envelopes of harmonic components. First, to analyze timbral features of a seed, it is separated into harmonic and inharmonic components by using Itoyama's integrated model. In pitch manipulation, it is necessary to take into account the relation of pitch and features (i) and (ii). Therefore, we predict the values of each feature by using a cubic polynomial that approximates the feature distribution over pitches. Experimental results showed the effectiveness of our method; the spectral and MFCC distances between synthesized sounds and real sounds of 32 instruments were reduced by 64.70% and 32.31%, respectively.
著者
奥乃 博 中臺 一博 公文 誠 糸山 克寿 吉井 和佳 佐々木 洋子 昆陽 雅司 合原 一究 鈴木 麗璽 加賀美 聡 田所 諭
出版者
早稲田大学
雑誌
基盤研究(S)
巻号頁・発行日
2012-05-31

本研究では,ロボット聴覚ソフトHARKの「聞き分ける技術」を基に,自然環境・災害現場でも通用するように,豊富な機能拡充・高性能化と応用に取り組んだ.HARKはWindows版提供により9万件弱のダウンロードがあった.多人数インタラクション,音楽共演ロボットの可能性を示し, iGSVD-MUSICの開発によるUAV用音源定位の頑健化,索状ロボット用に姿勢推定・音声強調の開発により,レスキューロボットへの音利用の可能性を示し,さらに,カエルの合唱の解明,野鳥の鳴交解析のためのHARKBirdの開発と実地検証により音響生態学への可能性を実証し,ロボット聴覚の多面的展開のための基礎技術が確立できた.
著者
吉井 和佳 後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.50, no.8, pp.751-755, 2009-08-15
参考文献数
12
被引用文献数
1

近年iTunes Music StoreやLast.fmなどの数百万曲を取り扱うオンライン音楽配信サービスが多数のユーザを獲得している.(財)デジタルコンテンツ協会の報告によると,2007年の国内デジタルコンテンツ市場規模は2兆6,947億円であり,このうち音楽コンテンツが占める割合は28.5%の7,677億円であった.近年は映像コンテンツの伸びが著しいが,依然として音楽コンテンツは重要な位置を占めている.この種のサービスにおいて注目すべき現象として,ロングテール効果がある.図-1に示すように,全楽曲を人気度順に並べてみると,楽曲の再生回数(購入回数)は指数的に減少していくが,ほとんど最後までゼロにはならない.このように,どの曲も誰かに必要とされているのであるが,ニューリリースや週間ランキングを参考にして人気が高い楽曲を聴くだけでは,好みに合った楽曲を発見できる範囲は限定されてしまう.
著者
吉井 和佳
雑誌
情報処理
巻号頁・発行日
vol.57, no.6, pp.519-522, 2016-05-15

本稿では,音楽情報処理分野における統計的機械学習,特に教師あり学習と教師なし学習の利用法について,ジャンル・ムード・印象認識,コード認識,ビートトラッキング,自動採譜を題材に解説する.
著者
糸山 克寿 坂東 宜昭 粟野 浩光 合原 一究 吉井 和佳
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2015-MUS-107, no.55, pp.1-6, 2015-05-16

本稿では,映像と音響信号に対して統合的に非負値行列因子分解 (NMF) を行うことでカエルなどの動物の合唱行動を分析する手法について報告する.カエルをはじめとした様々な動物は合唱 (音声によるコミュニケーション) を行うことが知られており,各個体がどのように合唱に参加しているかを調べることはその生態の解明に重要である.空間的な音場を光に変換するデバイスであるカエルホタルを用いて,ビデオカメラで録画した映像およびモノラル音響信号に対して統合的にNMFを行うことで,各個体の鳴き声を分離抽出する.カエルホタルの輝度とパワースペクトルの振幅をNMFのアクティベーションとして共有させることで,スペクトル形状が類似した同種別個体の鳴き声を相異なる基底へと分解する.
著者
池宮由楽 糸山克寿 吉井和佳 奥乃博
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-104, no.23, pp.1-6, 2014-08-18

本稿では,音楽音響信号に含まれる歌声の基本周波数 (F0) 軌跡に対して歌唱表現 (ビブラート・グリッサンド・こぶし) を転写することを可能とするシステムを提案する.能動的音楽鑑賞インタフェースは,エンドユーザのインタラクティブな音楽鑑賞を実現することを目的とした研究アプローチである.これには既存楽曲の加工支援も含まれ,歌声に関連するものでは,声質変換や歌声分離などの研究がなされている.本研究では,歌唱の歌い回しの加工を扱い,特に混合音中の歌声の F0 軌跡を任意に編集するインタフェースを実現する.ユーザは,歌声の任意の箇所を指定し,好みの歌唱表現を転写することで,歌い回しを自由に加工することができる.また,事前に市販楽曲からプロ歌手の歌唱表現を蓄積したデータベースを作成し,ユーザはそのデータベースから歌唱表現を参照することで直感的に転写を行うことが可能となる.歌唱表現の転写は,対数周波数軸において選択的に歌声のスペクトルのみをシフトさせ,伴奏音への影響を抑圧しながら歌声の音高を操作することで行われる.このとき,音韻性を保持するためスペクトル包絡を用いて音色の補正を行う.実際にユーザが表現の転写箇所を指定したり,F0 の存在範囲を提示するため,Graphical User Interface (GUI) の作成を行っている.実験では,音色補正の有効性やユーザ入力を用いた F0 推定の頑健性などを確認した.