著者
後藤 真孝 村上 瑛美 秋山 晴彦 村井 信哉
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.56, no.2, pp.525-533, 2015-02-15

本稿は,Webシステム等で用いられるメモリキャッシュサーバを大容量化するため,SSDを記憶領域として用いたSSDキャッシュサーバについて述べる.ストレージ上のデータを,TCP/IPネットワークにCPU処理を介すことなく直接転送できるハードウェアエンジンを用い,低応答遅延のSSDキャッシュサーバを試作し評価した.メモリキャッシュサーバの概要,ハードウェアエンジンの概要について述べ,試作したキャッシュサーバの構造について述べる.また,実機評価について述べる.SSDを4台使用することにより,4KBのサイズのデータ参照への応答を,1秒間に6万5千回実施することができた.また,そのときの応答時間は,約500μ秒であった.
著者
谷井 章夫 後藤 真孝 片寄 晴弘
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2003, no.82(2003-MUS-051), pp.19-24, 2003-08-04

ミキシングにおけるエフェクタや音量,音像定位の設定情報が異なれば,同じ音素材を用いても,楽曲の印象は大きく異なるため,的確なミキシングを行うには,高度な技能と経験を要する.そのため,アマチュアがミキシングに取り組んでも意図した結果を得ることは難しい.近年,商用音楽制作において,計算機上のソフトウェアを利用してミキシングが行われることが多くなったが,基本的に,ミキシングエンジニアが旧来のハードウェアミキサーやエフェクターを用いて実施していた作業を計算機上で可能にするものであり,技能と経験の乏しいアマチュアがミキシングを行う上での支援はなかった.本研究では,経験豊富なミキシングエンジニアの持つミキシングのノウハウをテンプレート化しておき,経験の乏しいアマチュアが自分の制作過程で再利用できるシステムを提案する.
著者
中村友彦 吉井和佳 後藤真孝 亀岡弘和
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.11, pp.1-6, 2014-08-18

本論文では,調波楽器音の周波数特性とドラムの音色を,音楽音響信号間で楽譜を用いずに置換するシステムを提案する.このシステムでは,まず置換元の音楽音響信号 (インプット) と置換先の音楽音響信号 (リファレンス) の振幅スペクトルをそれぞれ調波楽器音成分と打楽器音成分のスペクトルに分離し,それぞれの成分に対して独立に処理を行う.調波楽器音成分のスペクトルの周波数特性をスペクトルの山周辺と谷周辺を通る 2 つのスペクトル包絡によって特徴付け,インプットの調波楽器音成分の振幅スペクトルを,インプットとリファレンスの調波楽器音成分のスペクトル包絡が類似するように変形する.インプットとリファレンスの打楽器音成分のスペクトログラムは,各ドラム楽器毎のスペクトログラムに分離した後,ユーザによって指定されたインプットのドラム楽器の音色をリファレンスのドラム楽器の音色に置換する.主観評価実験により,提案するシステムが周波数特性とドラムの音色を適切に置換できることを確認した.
著者
吉井 和佳 後藤 真孝
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2011, no.2, pp.1-10, 2011-07-20

本稿では,和音系列に対する統計的言語モデルとして,ノンパラメトリックベイズ理論に基づく n グラムモデルについて述べる.従来の経験的なスムージングに基づく n グラムモデルには,主に三つの問題,すなわち,理論的な裏付けがなく改善が困難であること,n の値を一意に指定しなければならないこと,考慮する和音の種類 (語彙) は恣意的に決めざるを得ないこと,が存在した.これらの問題を解決するため,我々は語彙フリー無限グラムモデルを提案する.このモデルは,あらゆる音の組合せを和音として許容するため語彙が不要で,和音系列中の各和音が異なるコンテキスト長 (理論上は無限でもよい) を持つことを許容する.ある和音系列が与えられた上で,次の和音を予測するときには,n の値を一意に決めることなくあらゆる可能性を考慮できる.また,これまで観測したことがない和音が出現したとしても,その和音のゼログラム確率 (構成音の同時出現確率) をこれまで観測してきた和音の構成音に基づいて計算することで,適切に n グラム確率を推定することができる.実験の結果,従来の n グラムモデルよりも低いパープレキシティを達成することが分かった.This paper presents a novel nonparametric Bayesian n-gram model as a statistical language model for symbolic chord sequences. Standard n-gram models based on heuristic smoothing have three fundamental problems―that they have no theoretical foundation, that the value of n is fixed uniquely, and that a vocabulary of chord types is defined in an arbitrary way. To solve these problems, we propose a vocabulary-free infinity-gram model. It accepts any combinations of notes as chord types and allows each chord appearing in a sequence to have an unbounded and variable-length context. Our experiments showed that the perplexity obtained by the proposed model is significantly lower than that obtained by the state-of-the-art models.
著者
吉井 和佳 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.82, pp.91-96, 2005-08-05

本稿では、認識誤りを含むドラム音の発音時刻列からドラムパターンを推定し、認識誤り補正を行う手法について述べる。本稿におけるドラムパターンとは、バスドラム音およびスネアドラム音の発音時刻列のペアで構成される周期的な時間構造のことを指す。まず、我々が提案したドラム音認識手法を音楽音響信号に適用してドラム音の発音時刻列を得る。次に、発音時刻列を短時間フーリエ解析しても止まる周期長に基づき、ドラムパターンを切り出す。ここで、同じドラムパターンは連続して反復されやすいという仮定をおき、各ドラムパターン区間における実際の発音時刻列を推定する。最後に、切り出されたドラムパターンと推定された発音時刻列との比較により、認識誤りの可能性が高い時刻を検出し、再検証を行う。ポピュラー音楽50曲を用いたドラム音認識実験で、補正手法により認識率が77.4% から80.7%に改善することを確認した。may include recognition errors and corrects them by using the drum patterns. In this paper, drum patterns are defined as periodic temporal structures which are pair of onset-time sequences of bass and snare drum sounds. First, we apply our drum sound recognition method to musical audio signals, and obtain onset-time sequences of drum sounds. Next, we calculate the period length of those sequences by applying short-time Fourier transform, and extract drum patterns from them. Under the assumption that the same drum patterns tend to be repeated, we estimate an actual onset-time sequences in duration of each drum pattern. Finally, by comparing each drum pattern with its corresponding estimated onset-time sequences, we detect time points where recognition errors may have been made, and verify those points. The experiments of drum sound recognition with 50 popular songs showed that our correction method improved the recognition accuracy from 77.4% to 80.7%.
著者
齋藤 毅 後藤 真孝 鵜木 祐史 赤木 正人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.12, pp.25-32, 2008-02-08
被引用文献数
7

本稿では,歌詞の朗読音声(話声)を歌声に変換する歌声合成システムSingBySpeakingについて述べる.このシステムは,音声分析合成系STRAIGHTによる分析/合成処理過程において,基本周波数(F0),スペクトル,音韻長を制御するモデルによって歌声特有の音響特徴を操作することで話声を歌声に変換する.F0 制御モデルは,楽譜情報から得られるメロディの遷移の概形に対して,4種類の動的変動成分(オーバーシュート,ヴィブラート,プレパレーション,微細変動)を付与することで歌声のF0変化パターンを生成する.スペクトル制御モデルは,話声のスペクトルに対して,歌唱ホルマントとヴィブラートに同期したホルマントの振幅変調を付与することで歌声のスペクトル形状を生成する.音韻長制御モデルは,楽曲のテンポに基づいて,話声中の各音韻長を歌声の音韻長に伸長する.システムで合成された音声を聴取実験によって評価した結果,各種音響特徴を制御することで話声から歌声に変換され,すべての特徴を制御した合成音の音質は原音声と同程度であることを示した.This paper describes a novel singing voice synthesis system SingBySpeaking that can synthesize a singing voice, given a speaking voice reading the lyrics of a song and its musical score. The system is based on the speech manipulation system STRAIGHT and comprises three models controlling three acoustic features unique to singing voices: the fundamental frequency (F0), phoneme duration, and spectrum. Given the musical score and its tempo, the F0 control model generates the F0 contour of the singing voice by controlling four types of F0 fluctuations: overshoot, vibrato, preparation, and fine fluctuation. The duration control model lengthens the duration of each phoneme in the speaking voice by considering the duration of its musical note. The spectral control model converts the spectral envelope of the speaking voice into that of the singing voice by controlling both the singing formant and the amplitude modulation of formants in synchronization with vibrato. Experimental results show that the proposed system can convert speaking voices into singing voices whose naturalness is almost the same as actual singing voices.
著者
谷井 章夫 後藤 真孝 片寄 晴弘
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.82, pp.19-24, 2003-08-04

ミキシングにおけるエフェクタや音量,音像定位の設定情報が異なれば,同じ音素材を用いても,楽曲の印象は大きく異なるため,的確なミキシングを行うには,高度な技能と経験を要する.そのため,アマチュアがミキシングに取り組んでも意図した結果を得ることは難しい.近年,商用音楽制作において,計算機上のソフトウェアを利用してミキシングが行われることが多くなったが,基本的に,ミキシングエンジニアが旧来のハードウェアミキサーやエフェクターを用いて実施していた作業を計算機上で可能にするものであり,技能と経験の乏しいアマチュアがミキシングを行う上での支援はなかった.本研究では,経験豊富なミキシングエンジニアの持つミキシングのノウハウをテンプレート化しておき,経験の乏しいアマチュアが自分の制作過程で再利用できるシステムを提案する.If the setting information on mixing differs, even if it uses the same sound material, the impressions of a musicalpiece differ greatly. For this reason, in order to do exact mixing, high skill and experience are required. Therefore, it is difficult to obtain the result meant although amateur do mixing. In recent years, in commercial music work,mixing was performed more often using the software on a computer. The work which the mixing engineer was doing using ahardware mixer and a effector is enabled on a computer, and there was no support for amateur. In this research, know-how of mixing which a mixing engineer with abundant experience has is template-ized, and the amateur proposes a system reusable in his work process.
著者
後藤 真孝 根山亮 村岡 洋一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.40, no.3, pp.1335-1345, 1999-03-15
被引用文献数
22

本論文では シンボル化された音楽情報をネットワークを介して共有するための通信プロトコルRMCPについて述べる. 本研究は 音楽情報処理システムを分散実装したり ネットワークを利用したアプリケーションを実現する際に有効な 音楽情報処理のためのネットワークプロトコルを設計することを目的とする. そのような目的では 音楽情報の効率の良い共有が望ましいが 従来の音楽情報用の関連プロトコルの多くは1対1通信を基本としたコネクション型であり 複数プロセス間での効率的な情報共有は十分考慮されていなかった. RMCPはコネクションレス型であり 全通信をブロードキャストで行うため 各プロセスへ個別に送信するオーバヘッドがなく情報共有の効率が良い. さらにRMCPは リアルタイム音楽情報処理のために タイムスタンプを用いた時間管理の機能を提供し 遠隔地間の合奏のために 信頼性を確保しながら遠隔地間で双方向にパケットを中継する機能も提供している. 本論文では これらの機能を活用することで実現できる 遅延を考慮した新たな形態の遠隔地間の合奏も提案する. RMCPはすでに様々な音楽情報処理システムを実現するために運用されてきた. その経験から RMCPの通信遅延時間が十分小さいことが確認されただけでなく RMCPを用いることで必要な機能が再利用できて実装が容易になり 拡張性が高くなることも確認された.This paper describes a communication protocol, called RMCP (Remote Music Control Protocol), which is designed for sharing symbolic musical information through computer networks. The purpose of this research is to design a network protocol which is suitable for musical information processing and facilitates distributed implementation of music-related applications. Although efficient musical information sharing is desirable for such a purpose, most previous music-related protocols were connection-oriented and did not emphasize efficient information sharing among multiple processes. Since the RMCP is a connection-less protocol, it supports broadcast-based efficient information sharing without the overhead of multiple transmission. It also supports time scheduling using time stamps for real-time musical information processing and reliable bidirectional packet relay for remote sessions. This paper also proposes an innovative remote session over the Internet that has a long delay. RMCP has been utilized in various applications and we found that the communication delay of RMCP was enough small and RMCP facilitated system implementation and expansion because of good reusability.
著者
後藤 真孝 緒方 淳 江渡 浩一郎
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.1, pp.104-113, 2010
被引用文献数
2 1

In this paper, we describe a public web service, <EM>``PodCastle''</EM>, that provides full-text searching of speech data (Japanese podcasts) on the basis of automatic speech recognition technologies. This is an instance of our research approach, <EM>``Speech Recognition Research 2.0''</EM>, which is aimed at providing users with a web service based on Web 2.0 so that they can experience state-of-the-art speech recognition performance, and at promoting speech recognition technologies in cooperation with anonymous users. PodCastle enables users to find podcasts that include a search term, read full texts of their recognition results, and easily correct recognition errors by simply selecting from a list of candidates. Even if a state-of-the-art speech recognizer is used to recognize podcasts on the web, a number of errors will naturally occur. PodCastle therefore encourages users to cooperate by correcting these errors so that those podcasts can be searched more reliably. Furthermore, using the resulting corrections to train the speech recognizer, it implements a mechanism whereby the speech recognition performance is gradually improved. Our experience with this web service showed that user contributions we collected actually improved the performance of PodCastle.
著者
後藤 真孝 橋口 博樹 西村 拓一 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.14, pp.25-32, 2002-02-15
被引用文献数
14

本稿では,共通利用の自由,学術利用の自由が確保されたRWC 研究用音楽データベースの,制作方針と構成について述べる.他の研究分野では,以前から共通データベースの必要性・意義が認識されて,多様なデータベースを構築する努力がなされてきたが,音楽情報処理の分野では,従来,共通楽曲データベースは存在していなかった.そこで我々は既に,「ポピュラー音楽データベース」(100 曲)と「著作権切れ音楽データベース」(15 曲)の二つを構築してきた.本稿では,さらに,「クラシック音楽データベース」(50 曲)と「ジャズ音楽データベース」(50 曲)の二つを構築したことを報告する.本データベースにより,音楽情報処理の研究分野がさらに発展していくことを期待したい.This paper describes the design policy and overview of RWC music database that gives researchers freedom of common use and research use.Various commonly available databases have been built in other research ?elds because of the importance and signi ?cance of those databases.In the ?eld of musical information processing, however,there has not been any commonly available music database.We have therefore built two databases,"Popular Music Database "(100 pieces)and "Royalty-Free Music Database "(15 pieces).This paper reports that we built two more databases,"Classical Music Database "(50 pieces)and "Jazz Music Database "(50 pieces).We hope that these databases will encourage further advance in musical information processing research.
著者
藤原弘将 後藤 真孝 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.51, no.10, pp.1995-2006, 2010-10-15

本論文では,歌声の基本周波数(F0)と母音音素を同時に推定可能な新たな手法について述べる.本手法は,F0と母音音素だけでなく,歌手名や性別などの要素も同時に推定できるように設計されているため,混合音中の歌声を認識するための新たなフレームワークと考えることができる.本手法は,歌声とその他の伴奏音が混ざった状態を,歌声を分離するのではなく,そのままの形で統計的にモデル化する.また,信頼性の高い歌声のスペクトル包絡を推定するために,様々なF0を持つ複数の音の調波構造を使用する.F0と母音音素の同時推定を,ポピュラー音楽6歌手10曲で評価した結果,提案法によりF0推定の性能が平均3.7ポイント,音素推定の性能が平均6.2ポイント向上することを確認した.A novel method is described that can be used to concurrently recognize the fundamental frequency (F0) and vowel phoneme of a singing voice (vocal) in polyphonic music. This method can be considered as a new framework for recognizing a singing voice in polyphonic music because it is designed to concurrently recognize other elements of a singing voice including singer's name and gender, though this paper focuses on the F0 and vowel phoneme. Our method stochastically models a mixture of a singing voice and other instrumental sounds without segregating the singing voice. It can also estimate a reliable spectral envelope by estimating it from the harmonic structure of many voices with various F0s. The experimental results of F0 and phoneme recognition with 10 popular-music songs by 6 singers showed that our method improves the recognition accuracy by 3.7 points for F0 estimation and 6.2 points for the phoneme recognition.
著者
吉井 和佳 後藤 真孝 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.127, pp.55-60, 2003-12-21
参考文献数
8
被引用文献数
6

本稿では,実世界の音楽音響信号を対象としたドラムスの音源同定について述べる.このような音響信号に対してドラムスの音源同定を行う上での問題点は,曲ごとにドラムスの音色が大きく異なり,対象曲に使用されているドラムスの正確なテンプレートが事前に用意できないことである.我々は,この問題を解決するために,新しいテンプレート適応手法とテンプレートマッチング手法を提案する.まず,テンプレート適応手法を用いて,各ドラムごとに1つの基本テンプレートを,対象曲中に使用されているドラム音に適応させる.次に,距離尺度を改良したテンプレートマッチング手法を用いて,ドラムスの音源同定を行う.ポピュラー音楽を対象にした音源同定実験の結果,テンプレート適応により,バスドラムとスネアドラムの平均認識率が68%から85%まで改善された.This paper describes drum sound identification for real-world polyphonic musical audio signals. The most critical problem with drum sound identification is that acoustic features of drum sounds vary with each musical piece, and thus we cannot prepare their precise templates in advance. To solve this problem, we propose new template-adaptation and template-matching methods. The former method adapts a single base template model prepared for each drum sound to the corresponding drum sound appeared in the target musical piece. The latter method uses the distance measure that enables the adapted templates to be matched with the corresponding sounds in a mixture of them and other instruments. Experimental results showed that the average accuracy of identifying bass and snare drums in popular music is improved from around 68% to around 85% by the template adaptation.
著者
中野 倫靖 緒方 淳 後藤 真孝 平賀 譲
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.386-397, 2007-01-15
被引用文献数
3

本論文では,人がドラムの音を「ドンタンドドタン」のように擬音語で真似た音声(口ドラム)を,それに対応するドラムパターンとして認識する手法を提案する.口ドラムには,声質などの発声スタイルの個人差と表現の個人差の2 種類の個人差が存在し,認識手法はこれらの個人差を吸収できるものが望ましい.従来,実際のドラム音(楽器音)を対象とした認識は研究されてきたが,それらの手法では口ドラムの多様な個人差への対処が難しかった.そこで本手法では,口ドラムを,その各音を表す音素列の擬音語で表現し,多様な擬音語表現の辞書を用意することで,表現の個人差に対処する.さらに,音声認識で用いられている音響モデルを用いることにより,各歌唱者間の声質の個人差を吸収する.本手法を200 発話の口ドラムデータに対して適用した結果,最も良い実験条件において92.0%の認識率を得た.この結果は,提案手法が十分実用性を持つことを示しており,応用例として,口ドラムによるドラム譜入力インタフェースVoice Drummer を実装した.This paper presents a method of recognizing voice percussion (verbalized expression of drum sound by voice) as an expression of intended drum patterns. Recognition of voice percussion requires an approach that is different from existing methods for drum sound recognition. Individual differences in both vocal characteristics and the verbal expressions used add further complication to the task. The approach taken in this study uses phonemic sequences of onomatopoeia as internal representation of drum sounds. The set of onomatopoeia used in drum sounds are included in a pronunciation dictionary, and the phonemic sequences are estimated by utilizing an acoustic model. The acoustic model and the dictionary are intended to deal with the two types of individual differences mentioned above. In a recognition experiment with 200 utterances of voice percussion, our method achieved a recognition rate of 92.0% for the highest-tuned setting. Following the results of the proposed method, Voice Drummer, a music notation interface of drum sounds, was implemented, as a practical application for voice percussion recognition.
著者
北山 広治 後藤 真孝 伊藤 克亘 小林 哲則
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.58, pp.67-72, 2003-05-27
被引用文献数
5

本稿では,非言語情報の一つである言い淀み(有声休止)を活用し,ユーザが音声認識を開始してほしいタイミング(発話区間の始端)を,言い淀むことによって明示的に指示できる「音声スタータ」という新しい音声インタフェースを提案する.通常の音声認識システムは,発話区間の切り出し後に音声認識を行うため,雑音下での切り出しミスが認識精度に悪影響を与え,頑健性を保証することが困難であった.我々は,有声休止が雑音下でも頑健に検出できると考え,常に有声休止の途中から音声認識を開始することで,信頼性の高い発話区間の検出方法を実現することを試みる.様々な雑音環境下で4種類の発話区間検出方法を比較実験した結果,音声スタータは他の検出方法に比べ,特に低SNR(10dB以下)の条件で高い性能が得られた.In this paper we propose a speech interface function, called speech starter, that enables noise-robust endpoint (utterance) detection for speech recognition. When current speech recognizers are used in a noisy environment, a typical recognition error is caused by incorrect endpoints because their automatic detection is likely to be disturbed by non-stationary noises. The speech starter function enables a user to specify the beginning of each utterance by uttering a filler with a filled pause, which is used as a trigger to start speech-recognition processes. Since filled pauses can be detected robustly in a noisy environment, reliable endpoint detection is achieved. Experimental results from a 10-dB-SNR noisy environment show that the recognition error rate with speech starter was lower than with conventional endpoint-detection methods.
著者
園田 智也 後藤 真孝 村岡 洋一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.560, pp.25-32, 1998-02-19
被引用文献数
3 7

本稿では、WWW上で動作する、歌声の旋律からその曲のタイトルを検索するシステムについて述べる。歌声による検索では、入力の旋律情報(音高・音長)が正確とは限らないため、閾値によってそれらを粗い旋律情報に変換したものを検索キーとし、データベースの曲とのマッチングを行なう。しかし、このための適切な閾値の設定は難しく、特に音長情報においては、有効な検索キーを得ることが困難であった。また、粗い旋律情報では正答の絞り込みも難しい。そこで、本研究では(1)有効な検索キーを得るための最適な閾値を設定する手法、(2)データベースの曲から正答の曲の候補を精度良く絞り込むためのマッチング手法の2つを提案することで、従来手法よりも正答率の高い検索を実現し、WWW上で複数の利用者が活用できるシステムを構築できた。
著者
後藤 真孝
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.1, pp.12-22, 2001-01-01
被引用文献数
40

本論文では, 複数の楽器音が混在したモノラルの音楽音響信号に対して, メロディーとベースの音高(基本周波数)を推定する手法を提案する.従来の音高推定手法や音源分離手法は, たかだか三つの音の混合音しか扱うことができず, 市販のCDによるジャズやポピュラー音楽の音響信号には有効に機能しなかった.本手法は, 混合音下で安定に抽出できない基本周波数成分には依存せず, 意図的に制限した周波数帯域(メロディーは中高域, ベースは低域)にある高調波成分が支持する最も優勢な音高を求める.その際, 音源数を仮定せずにあらゆる音高の高調波構造が混在しているとみなして混合音をモデル化し, EM(Expectation-Maximization)アルゴリズムにより各高調波構造が相対的にどれくらい優勢かを推定する.更に, マルチエージェントモデルを導入し, 各エージェントが音高の時間的な軌跡を追跡することで, 最も優勢で安定な音高の軌跡を得ることができる.本手法に基づくシステムを実装して実験した結果, 市販のCDからサンプリングした実世界の音響信号に対し, メロディーとベースの音高をリアルタイムに推定できることを確認した.
著者
藤原弘将 後藤 真孝 緒方 淳 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.37-44, 2006-08-07

本稿では,伴奏音を含む音楽音響信号と対応する歌詞の時間的な対応付け手法について述べる.クリーンな音声信号とその発話内容の時間的対応付けを推定をするViterbi アラインメント手法はこれまでも存在したが,歌声と同時に演奏される伴奏音の悪影響で市販 CD 中の歌声には適用できなかった.本稿では,この問題を解決するため,歌声の調波構造を抽出・再合成することで混合音中の歌声を分離する手法,歌声・非歌声状態を行き来する隠れマルコフモデル (HMM)を用いた歌声区間検出手法,音響モデルを分離歌声に適応させることで Viterbi アラインメントを適用する手法を提案する.日本語のポピュラー音楽を用いた評価実験を行い,本手法により10曲中8曲について十分な精度で音楽と歌詞の対応付けが出来ることを確かめた.This paper describes a method that can automatically synchronize between polyphonic musical audio signals and corresponding lyrics. Although there were methods that can synchronize between monophonic speech signals and corresponding text transcriptions by using Viterbi alignment techniques, they cannot be applied to vocals in CD recordings because accompaniment sounds often overlap with vocals. To align lyrics with such vocals, we therefore developed three methods: a method for segregating vocals from polyphonic sound mixtures by extracting and resynthesizing the vocal melody, a method for detecting vocal sections using a Hidden Markov Model (HMM) that transitions back and forth between vocal and non-vocal state, and a method for adapting a speech-recognizer phone model to segregated vocal signals. Experimental results for 10 Japanese popular-music songs showed that our system can synchronize between music and lyrics with satisfactory accuracy for 8 songs.
著者
菊地 淑晃 後藤 真孝 村岡 洋一
雑誌
全国大会講演論文集
巻号頁・発行日
vol.52, pp.459-460, 1996-03-06

本稿では、エレクトリックベースによって単独演奏された音楽を対象にした自動採譜システムについて述べる。従来の自動採譜システムや音源分離システムでは、主にピアノなどの鍵盤楽器や吹奏楽器を扱っており、ベースやギター等の弦楽器はほとんど扱われていなかった。これらの研究では、音高および音色(楽器種)を同定していたが、楽器をどのように弾いたかという奏法の種類は判別していなかった。また、楽譜だけでなく弦楽器に固有のタブ譜を出力するトータルな自動採譜システムは報告されていなかった。本研究では、ベースのみによって演奏された音響信号を入力とし、5種類の代表的な奏法の判別できる自動採譜システムを実現した。本システムは楽譜・タブ譜・標準MIDIファイルの3種類の形式で出力できる。これにより、楽譜の読めないベーシストや奏法を自分で判断しながら演奏するのが困難な初心者にとっても、奏法付きのタブ譜があることで自動採譜結果を有効に活用できる。
著者
西村 拓一 橋口 博樹 関本 信博 張建新 後藤 真孝 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.103, pp.7-14, 2001-10-26
被引用文献数
1

我々は,音楽音響信号のデータベースから,鼻歌のメロディーに類似した区間を見つけ出す音楽検索システムを提案している.本システムでは,個人的に収集したビデオデータからの検索も可能である.しかし,このシステムで用いていた「Model driven path 連続DP」呼ぶマッチング手法は,クエリーの時間軸,データベースの時間軸,音高の軸からなる3次元空間中において,局所類似度を連続DPに基づいて累積し,極大となる累積類似度を計算するもので,その計算量が大きい.そこで,クエリーの始端周辺の音高が正しく推定できたと仮定することで,音高軸を削減した2次元空間における局所類似度の累積に基づく「始端特徴依存連続DP」を提案する.本稿では,ポピュラー音楽20曲について鼻歌検索実験を行い,約7割の検索率を維持しつつ,計算量を従来法の約1/40に低減できることを示す.We have developed a music retrieval method that takes a humming query and finds similar audio intervals (segments) in a music audio database. This method can also address a personally recorded video database containing melodies in its audio track. Our previous retrieving method took too much time to retrieve a segment: for example, a 60-minute database required about 10-minute computation on a personal computer. In this paper, we propose a new high-speed retrieving method, called start frame feature dependent continuous Dynamic Programming, which assumes that the pitch of the interval start point is accurate. Test results show that the proposed method reduces retrieval time to about 1/40 of present methods.