著者
須田 仁志 深山 覚 中野 倫靖 齋藤 大輔 後藤 真孝
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2018-MUS-121, no.17, pp.1-6, 2018-11-14

本稿では,複数人が歌唱している楽曲に対して誰がいつ歌っているかを推定する歌唱者ダイアライゼーションの基礎的な検討を行う.とくに本稿ではグループアイドルソングのような複数の歌唱者が交互に歌ったり同時に歌ったりする楽曲を対象とする.本稿では伴奏音を除去した歌声を用いてアイドルソングのデータセットを構築した.またこれらの歌声に対して,歌唱者の音響モデルを未知とした手法と既知とした手法の 2 手法を用いて歌唱者ダイアライゼーションを行った.歌唱者の音響モデルを未知とした手法には,会話音声に対する話者ダイアライゼーションで広く用いられている修正ベイズ情報量規準を用いた手法を利用した.また音響モデルを既知とした手法では,i - vector を用いた話者認識を利用して短時間での歌唱者認識を繰り返し行うことで推定した.推定結果から,歌唱者の音響モデルの有無により大きな性能の差があること,また音響モデルが既知であっても短時間での歌唱者認識だけでなく適切な後処理によって推定誤りを減らせることが確認できた.
著者
日高 伊佐夫 後藤 真孝 村岡 洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.19, pp.29-36, 1996-02-24
参考文献数
11
被引用文献数
12

本稿では、ジャズセッションシステムにおけるベーシストとドラマーの実現方法について述べる。従来の研究では、人間のソロ演奏への追従が中心であり、計算機が演奏上どう主張するかについては十分考慮されていなかった。本研究では、すべてのプレーヤーが対等となる合奏を実現するために、計算機上のプレーヤーが演奏での主張の仕方を自ら決定することを提案する。また、曲のおおまかな流れを事前に決め、その部分ごとに主張の仕方を変えることを提案する。そのために、セッションの中でどの程度主導権を握りたいかを算出して、自分が主張する程度を決定する。本システムを実装し、ジャズピアニストとセッションを行なった結果、起伏に富んだセッションが実現できた。This paper presents implementation of a bassist and a drummer in our jazz session system where each player is independent and interplays with others. In most previous systems, computer players only followed a human solist and did not play with a certain intention. In our system, each computer player can dynamically determine his musical intention by considering the whole musical relationships among players. Moreover, we introduce a song form called scenario, which enables the player to change his way of playing according to where he plays in it. Experimental results showed that interaction among a human pianist and the computer players made the performance expressive and interesting.
著者
後藤 真孝 日高 伊佐夫 松本 英明 黒田 洋介 村岡 洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.19, pp.21-28, 1996-02-24
被引用文献数
15

本稿では,すべてのプレーヤーが対等な立場でインタラクションし,即興演奏するジャズセッションシステムについて述べる.従来の多くのシステムでは,人間のソロ演奏に対して計算機が他のプレーヤー全員の演奏を伴奏としてまとめて生成していたため,ソロに追従する域を出なかった.我々は,計算機内のプレーヤー同士も人間同様にお互いの演奏を聞き合い反応することができ,さらにジェスチャーも視覚的に交換することができるシステムを提案する.対象はジャズのピアノトリオとし,人間がピアニスト,計算機がベーシストとドラマーを担当する.両計算機プレーヤーは独立したプロセスとして複数の計算機上に実装され,実際にプレーヤーが対等な立場で演奏できた.This paper presents a jazz session system where each player is independent and can interplay with other players. Most previous systems reacted to only human player's performance with the fixed master-and-servant relationship. Our system enables computer players to listen to other computer player's performance as well as human performance, and to interact each other. Moreover, all players can communicate not only by listening other's performance, but by looking at other's bodies and gestures. In our current implementation, the system deals with jazz piano trio consisting of a human pianist, a computer bassist and a computer drummer. These computer players have been implemented as independent processes on several distributed workstations.
著者
後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.100, pp.27-34, 2002-10-25
参考文献数
17
被引用文献数
11

本稿では、ポピュラー音楽の音響信号に対して、サビの区間の一覧を求める手法を提案する。従来、楽曲の音響信号中に何度も出現するサビのどこか一箇所を、指定した長さだけ切り出して提示する研究はあったが、サビ区間の開始点と終了点はわからず、サビの転調も扱えなかった。本手法は、様々な繰り返し区間の相互関係を調べることで、楽曲中で繰り返されるすべてのサビ区間を網羅的に検出し、それらの開始点と終了点を推定できる。また、転調後でも繰り返しと判断できる類似度を導入することで、転調を伴うサビも検出できる。この検出結果は、リアルタイム音楽情景記述システムにおける大局的な記述に相当する。RWC研究用音楽データベース100曲を用いて本手法を評価したところ、80曲のサビが検出できた。This paper describes a method for obtaining a list of chorus sections in popular-music audio signals. Most previous methods detected a repeated section of a given length as a chorus and had difficulty in identifying both ends of a chorus section and in dealing with modulations (key changes). By analyzing relationships among various repeated sections, our method can detect all the repeated chorus sections in a song and estimate their both ends. It can also detect modulated chorus sections by introducing a similarity measure that enables correct judgement in finding modulated repetition. The detected results correspond to global music descriptions in our real-time music scene description system. Experimental results with the RWC Music Database showed that our method correctly dealt with 80 out of 100 songs.
著者
後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.11, pp.1737-2747, 2003-11-15
参考文献数
26
被引用文献数
10

本論文では,試聴のための新たな音楽再生インタフェースSmartMusicKIOSKを提案する.CD販売店の店頭で音楽を短時間試聴する際には,通常の音楽鑑賞における受動的な聴き方と異なり,試聴者は早送りを何度も繰り返しながらサビを探すことが多い.しかし,こうした聴き方に対する支援は従来なかった.本研究では,サビの区間や楽曲中で繰り返される区間の先頭へジャンプする機能と,それらの区間の楽曲中での配置を視覚化する機能を提供する.これにより,試聴者が手探りでサビを見つける煩わしい作業を不要にし,試聴者が能動的に聴きたい場所を探す作業を容易にする.このような,インタラクティブに楽曲中の再生位置を変更しながら所望の箇所を見つけられるインタフェースは,試聴に限らず,音楽を選んで利用する一般的な目的で有用である.上記の機能を実現するために自動サビ区間検出手法を提案し,試聴機として実装・運用した結果,検出手法と試聴機の両者の有効性を確認した.従来の音楽再生インタフェースでは,楽曲単位でしか興味のない音楽を飛ばせなかったのに対し,SmartMusicKIOSKによって初めて,楽曲内部の興味のない箇所も容易に飛ばすことが可能になったといえる.This paper describes SmartMusicKIOSK,a new music-playback interface for trial listening.In stores that sell music compact discs,short periods of trial listening of the CD music usually do not represent a passive appreciation of music --- customers often search out the chorus or ``hook'' of a song by repeatedly pressing the fast-forward button.Listening of this type, however,has not been traditionally supported.Through our research,we have developed a function for jumping to the chorus section and other key parts of a song,plus a function for visualizing the song structure.These functions eliminate the hassle of searching for the chorus and make it easier for a listener to find desired parts of a song,thereby facilitating an active listening experience.This interface,which enables a listener to look for a section of interest by interactively changing the playback position,is useful not only for trial listening but also for more general purposes in selecting and using music.The proposed functions are achieved through an automatic chorus-section detection method,and the results of implementing these functions in a listening station have demonstrated their usefulness.While entire songs of no interest to the listener can be skipped on conventional music-playback interfaces,SmartMusicKIOSK is the first interface that allows the user to easily skip sections of no interest even within a song.
著者
土井啓成 戸田智基 中野倫靖 後藤真孝 中村哲
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-96, no.5, pp.1-9, 2012-08-02

歌声の声質には,歌手の個人性が反映されており,他者の声質に自在に切り替えて歌うことは難しい.そこで我々は,歌声の声質を他者の歌声の声質へと自動変換することで,任意の声質での歌唱を実現する手法を提案し,歌唱という音楽表現の可能性を広げることを目指す.従来,統計的声質変換に基づく歌声声質変換が実現されていたが,提案手法では様々な声質に少ない負担で変換可能にするため,多対多固有声変換を導入する.これにより変換時に数秒程度の少量の無伴奏歌声さえあれば,任意の歌手の歌声から別の任意の歌手の歌声への声質変換が実現できる.しかし,その声質変換モデルの事前学習データとして,ある参照歌手の歌声と多くの事前収録目標歌手の歌声とのペアから構成されるパラレルデータセットが必要で,その歌声収録は困難であった.そこで提案手法では,歌唱表現を模倣できる歌声合成システム VocaListener を用いて目標歌手の歌声から参照歌手の歌声を生成することで,その学習データ構築を容易にする.実験結果から提案手法の有効性を確認した.
著者
吉井 和佳 後藤 真孝
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.50, no.8, pp.751-755, 2009-08-15
参考文献数
12
被引用文献数
1

近年iTunes Music StoreやLast.fmなどの数百万曲を取り扱うオンライン音楽配信サービスが多数のユーザを獲得している.(財)デジタルコンテンツ協会の報告によると,2007年の国内デジタルコンテンツ市場規模は2兆6,947億円であり,このうち音楽コンテンツが占める割合は28.5%の7,677億円であった.近年は映像コンテンツの伸びが著しいが,依然として音楽コンテンツは重要な位置を占めている.この種のサービスにおいて注目すべき現象として,ロングテール効果がある.図-1に示すように,全楽曲を人気度順に並べてみると,楽曲の再生回数(購入回数)は指数的に減少していくが,ほとんど最後までゼロにはならない.このように,どの曲も誰かに必要とされているのであるが,ニューリリースや週間ランキングを参考にして人気が高い楽曲を聴くだけでは,好みに合った楽曲を発見できる範囲は限定されてしまう.
著者
吉館 要 深山 覚 後藤 真孝
雑誌
第79回全国大会講演論文集
巻号頁・発行日
vol.2017, no.1, pp.103-104, 2017-03-16

既存楽曲の再生に合わせた鍵盤楽器の即興演奏が楽しめるシステムを提案する。即興演奏をする上で必要な専門知識や技能をシステムが補完し、そのような知識や技能を持たない演奏者にかかる負担を軽減することで実現する。従来、自由な即興演奏や楽譜に忠実な演奏の支援をする研究があった。しかし既存楽曲に適切に協和する即興演奏を支援する方法が議論できていなかった。本研究では、既存楽曲中の和音・調と即興演奏の協和度を推定し考慮しながら、その楽曲に重ねて演奏可能な音を演奏者にフィードバックし、さらには自動で演奏を修正する機能によって、演奏者にかかる負担を軽減する。システムを実装し、演奏者が既存楽曲の再生に合わせた即興演奏を楽しめることを確認した。
著者
野口 裕介 後藤 真孝 谷口 秀夫 牛島 和夫
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.43-44, 1996-03-06
被引用文献数
3

現在、我々はプログラム構造に重点をおいたオペレーティングシステムTender(The ENduring operating system for Distributed EnviRonment)の開発を行なっている。Tenderでは、時計を一つの資源として扱い、各時計毎に時刻や時間の進み具合(時刻進度)を設定できる機能を持つ。これにより、それぞれのプロセスが異なった時間軸上で処理を行なったり、同一プロセスで速度の異なる時間を持つことが可能になる。 本稿では、Tenderにおける資源「時計」の機能内容、実現方式について述べる。具体的には、複数の時計を提供する機能や時計の速度を変化させる機能について述べる。また、実現方式として「時計」資源管理における時計の管理と処理の方式を述べ、提供インタフェースを説明する。
著者
室伏 空 中野 倫靖 後藤 真孝 森島 繁生
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2009-MUS-81, no.21, pp.1-7, 2009-07-22

本研究では、既存のダンス動画コンテンツの複数の動画像を分割して連結(切り貼り)することで、音楽に合ったダンス動画を自動生成するシステムを提案する。従来、切り貼りに基づいた動画の自動生成に関する研究はあったが、音楽{映像間の多様な関係性を対応付ける研究はなかった。本システムでは、そうした多様な関係性をモデル化するために、Web 上で公開されている二次創作された大量のコンテンツを利用し、クラスタリングと複数の線形回帰モデルを用いることで音楽に合う映像の素片を選択する。その際、音楽{映像間の関係だけでなく、生成される動画の時間的連続性や音楽的構造もコストとして考慮することで、動画像の生成をビタビ探索によるコスト最小化問題として解いた。
著者
中野 倫靖 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 = IPSJ journal (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.227-236, 2007-01-15

本論文では,歌唱力を自動的に評価するシステム開発の第1 段階として,ポピュラー音楽における歌唱力の「うまい」「へた」を,楽譜情報を用いずに自動的に識別する手法を提案する.従来,訓練された歌唱者の歌唱音声に関する音響学的な考察は行われてきたが,それらの研究は歌唱力の自動評価に直接適用されたり,人間による評価と結び付けて検討されたりすることはなかった.本論文では,聴取者の歌唱力評価の安定性を聴取実験によって確認し,そこで得られた結果から歌唱音声に「うまい」「へた」をラベル付けして自動識別実験を行った.そのための特徴量として,歌唱者や曲に依存しない特徴であることを条件に,相対音高とビブラートの2 つを提案する.聴取実験では,22 人の聴取者を被験者とし,聴取者間の評価に相関があった組の割合は88.9%(p < .05)であった.また,600 フレーズのラベル付けされた歌唱音声に対して識別実験を行った結果,83.5%の識別率を得た.As a first step towards developing an automatic singing skill evaluation system, this paper presents a method of classifying singing skills (good/poor) that does not require score information of the sung melody. Previous research on singing evaluation has focused on analyzing the characteristics of singing voice, but were not directly applied to automatic evaluation or studied in comparison with the evaluation by human subjects. In order to achieve our goal, two preliminary experiments, verifying whether the subjective judgments of human subjects are stable, and automatic evaluation of performance by a 2-class classification (good/poor ), were conducted. The approach presented in the classification experiment uses pitch interval accuracy and vibrato as acoustic features which are independent from specific characteristics of the singer or melody. In the subjective experiment with 22 subjects, 88.9% of the correlation between the subjects' evaluations were significant at the 5% level. In the classification experiment with 600 song sequences, our method achieved a classification rate of 83.5%.
著者
峰松 美佳 後藤 真孝 川村 卓也 松澤 茂雄
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.54, no.2, pp.551-560, 2013-02-15

同時により多くの情報を表示可能とするタイルドディスプレイシステムが注目を集めている.本論文では,ディスプレイの大型化に柔軟に対応することを目的とした,マルチコアレンダリングサーバの設計と実装について述べる.また,我々の特徴技術である,多段並列処理手法と背景補正ダブルフレームバッファ(FB)の効果を検証する.8CPUコアサーバを用いて性能評価した結果,フレームレートが,並列処理を行わない場合と比べて7.3倍,通常のダブルFBを利用する場合と比べて1.3倍向上することが確認できた.また,関連研究であるXvncと比較すると5倍のフレームレートが得られた.A tiled display system which enables to display large amount of data is gaining attention. In this paper, we propose multi-core rendering server architecture for a tiled display system which flexibly adapts to different display sizes. The proposed technology introduces multistage parallel processing method and background correction double FB (Frame Buffer). Evaluation using 8 CPU core server showed that the frame rate of the proposed technology increased by 7.3 times compared with single thread version, increased by 1.3 times compared with conventional double FB version, and increased by 5 times compared with Xvnc.
著者
平井 辰典 中野 倫靖 後藤 真孝 森島 繁生
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会誌 (ISSN:13426907)
巻号頁・発行日
vol.66, no.7, pp.J251-J259, 2012 (Released:2012-06-25)
参考文献数
12
被引用文献数
2

We present a method that can automatically annotate when and who is appearing in a video stream that is shot in an unstaged condition. Previous face recognition methods were not robust against different shooting conditions, such as those with variable lighting, face directions, and other factors, in a video stream and had difficulties identifying a person and the scenes the person appears in. To overcome such difficulties, our method groups consecutive video frames (scenes) into clusters that each have the same person's face, which we call a “facial-temporal continuum,” and identifies a person by using many video frames in each cluster. In our experiments, accuracy with our method was approximately two or three times higher than a previous method that recognizes a face in each frame.
著者
濱崎 雅弘 後藤 真孝
雑誌
情報処理
巻号頁・発行日
vol.57, no.6, pp.532-534, 2016-05-15

本稿では,音楽とWebが融合した研究を紹介し,Web時代の音楽の姿を考察する.音楽を聴く手段としてWeb上の音楽配信・共有サービス等が広く利用されている.音楽について調べたり誰かと語り合ったりする際にも,Webが用いられる.Webにとっても音楽は重要なコンテンツの1つであり,音楽情報処理研究とWeb研究の双方にとって「音楽とWeb」は魅力的で新しい研究テーマの宝庫となっている.そうした新しい研究の成果が結実することで,音楽とWebの融合が今後一層進み,さらに新たな音楽体験が切り拓かれることが期待できる.
著者
深山 覚 後藤 真孝
雑誌
情報処理
巻号頁・発行日
vol.57, no.6, pp.516-518, 2016-05-15

本稿では,音楽制作支援を行うための音楽の自動生成研究について紹介する.電子計算機の黎明期から発展してきた一連の研究を振り返ると,そのパラダイムは,音楽理論や専門知識を人間が記述して実装する手法から,音楽データベースと機械学習を活用する手法へとシフトしている.音楽音響信号中の音楽要素(拍や和音)の分析・理解技術の発展にともない,従来は少なかった音楽音響信号のデータベースに基づく自動生成も登場している.まさに今は音楽自動生成研究の転換期といえ,音楽情報処理・ヒューマンコンピュータインタラクション・機械学習等を一層融合していくことで今後さらに進展できると確信している.
著者
日高 伊佐夫 後藤 真孝 村岡 洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.19, pp.29-36, 1996-02-24
被引用文献数
12

本稿では、ジャズセッションシステムにおけるベーシストとドラマーの実現方法について述べる。従来の研究では、人間のソロ演奏への追従が中心であり、計算機が演奏上どう主張するかについては十分考慮されていなかった。本研究では、すべてのプレーヤーが対等となる合奏を実現するために、計算機上のプレーヤーが演奏での主張の仕方を自ら決定することを提案する。また、曲のおおまかな流れを事前に決め、その部分ごとに主張の仕方を変えることを提案する。そのために、セッションの中でどの程度主導権を握りたいかを算出して、自分が主張する程度を決定する。本システムを実装し、ジャズピアニストとセッションを行なった結果、起伏に富んだセッションが実現できた。This paper presents implementation of a bassist and a drummer in our jazz session system where each player is independent and interplays with others. In most previous systems, computer players only followed a human solist and did not play with a certain intention. In our system, each computer player can dynamically determine his musical intention by considering the whole musical relationships among players. Moreover, we introduce a song form called scenario, which enables the player to change his way of playing according to where he plays in it. Experimental results showed that interaction among a human pianist and the computer players made the performance expressive and interesting.
著者
後藤 真孝 日高 伊佐夫 松本 英明 黒田 洋介 村岡 洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.19, pp.21-28, 1996-02-24
被引用文献数
15

本稿では,すべてのプレーヤーが対等な立場でインタラクションし,即興演奏するジャズセッションシステムについて述べる.従来の多くのシステムでは,人間のソロ演奏に対して計算機が他のプレーヤー全員の演奏を伴奏としてまとめて生成していたため,ソロに追従する域を出なかった.我々は,計算機内のプレーヤー同士も人間同様にお互いの演奏を聞き合い反応することができ,さらにジェスチャーも視覚的に交換することができるシステムを提案する.対象はジャズのピアノトリオとし,人間がピアニスト,計算機がベーシストとドラマーを担当する.両計算機プレーヤーは独立したプロセスとして複数の計算機上に実装され,実際にプレーヤーが対等な立場で演奏できた.This paper presents a jazz session system where each player is independent and can interplay with other players. Most previous systems reacted to only human player's performance with the fixed master-and-servant relationship. Our system enables computer players to listen to other computer player's performance as well as human performance, and to interact each other. Moreover, all players can communicate not only by listening other's performance, but by looking at other's bodies and gestures. In our current implementation, the system deals with jazz piano trio consisting of a human pianist, a computer bassist and a computer drummer. These computer players have been implemented as independent processes on several distributed workstations.
著者
加藤淳 中野倫靖 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.15, pp.1-7, 2014-08-18

本稿では、歌詞を歌声と同期してアニメーションさせる Kinetic Typography と呼ばれる動画表現の制作環境 TextAlive を提案する。既存の制作ツールでは、歌詞と歌声の同期を手作業で取り、文字や単語、複数単語から成るフレーズに対して個別に望みの動きを設計する必要があった。その際は、動きを規定するアルゴリズムのパラメタを、スライダーなどの汎用 GUI で調整して試行錯誤を重ねていた。一方、本制作環境では、歌詞と音楽の時間的対応付けを自動で推定し、動きのアルゴリズムに対する初期パラメタを自動生成する。さらに、動きのアルゴリズムを編集できるコードエディタを備え、プログラマがパラメタ調整に適した専用 GUI を容易に提供できるフレームワークを提供する。これにより、TextAlive のユーザは Kinetic Typography を一から作る必要がなくなり、初めに時間合わせなどを行う手間をかけずに済む。また、歌詞の動きをインタラクティブかつグラフィカルに設計できるようになる。