著者
平山 直樹 吉野 幸一郎 糸山 克寿 森 信介 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.55, no.7, pp.1681-1694, 2014-07-15

本論文では,様々な方言の混合に対応する音声認識システムを構築する.まず,単一方言音声認識の言語モデルを,大規模共通語言語コーパスから擬似生成した方言言語コーパスで学習する.擬似生成には,共通語-方言対訳コーパスからWFST(重み付き有限状態トランスデューサ)によって学習されたルールを用いる.次に,構築された各方言言語モデルを混合し,発話ごとに最適な混合比を推定しながら認識を行う.これは,実際に話される方言が純粋な単一方言ではなく,人の移動やテレビ,ラジオなどの放送の影響を受けた様々な方言の混合であると考えられるからである.この推定には,音声認識用言語モデルにおける対数尤度の値を用いる.実験により,方言音声認識用言語モデルを用いて方言音声の認識精度が向上することを確認した.また,対数尤度と音声認識精度に強い相関があること,対数尤度を最大化する混合比を発話ごとに選択することで,固定混合比の場合と比較して音声認識精度が向上することを確認した.
著者
岸波 華彦 糸山 克寿 西田 健次 中臺 一博
出版者
一般社団法人 日本ロボット学会
雑誌
日本ロボット学会誌 (ISSN:02891824)
巻号頁・発行日
vol.39, no.3, pp.271-274, 2021 (Released:2021-04-28)
参考文献数
11

In recent years, many kinds of sensors have been studied to recognize the environment, and they are used for AR and VR applications and for SLAM. Although ultrasonic signals with high directivity and high resolution are often used, there are problems such as ultrasonic exposure and grating noise at the rising edge. In this paper, we propose a new active sensing method based on audible sounds that is robust to environmental noise by combining weighting likelihood functions and standing waves. Compared to ultrasonic signals, audible sound tends to spread out, which leads to misalignment of distance estimates and loss of map consistency over time. Therefore, we derive the effective azimuth angle based on the directional characteristics of the speaker and calculate the likelihood of the presence or absence of obstacles using the observation model. In addition, we introduce occupancy grid mapping to produce a map that best explains the estimated distances. We performed real-world two-dimensional environment recognition experiments using the proposed method to detect and map surrounding obstacles, and showed the effectiveness of the method.
著者
糸山 克寿 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.3, pp.1-6, 2009-07-22

本報告では,楽曲の楽器パート音量操作によってユーザがクエリをカスタマイズすることが可能な類似楽曲検索手法を提案する.楽曲の雰囲気やジャンルは楽曲を構成する楽器およびその音量バランスと強く関係する,という仮説に基づく.楽曲の音響信号を楽譜に基づいて楽器パートへと分離し,その分離信号の音量を操作することで楽曲の音響的特徴を変化させる.楽曲の音響特徴はガウス混合分布で表現され,楽曲間の類似性を分布間の Earth Movers Distance で定義する.実験により,歌声,ギター,ドラムスパートの音量を操作した際にジャンルシフトが起こることを示す.This report presents a novel Query-by-Example (QBE) approach in Music Information Retrieval, which allows a user to customize query examples by directly modifying the volume of different instrument parts. The underlying hypothesis is that the musical genre shifts (changes) in relation to the volume balance of different instruments. Our QBE system first separates the musical audio signal into all instrument parts with the help of its musical score, and then lets a user remix those parts to change acoustic features that represent musical mood of the piece. The distribution of those features is modeled by the Gaussian Mixture Model for each musical piece, and the Earth Movers Distance between mixtures of different pieces is used as the degree of their mood similarity. Experimental results showed that the shift was actually caused by the volume change of vocal, guitar, and drums.
著者
津島 啓晃 中村 栄太 糸山 克寿 吉井 和佳
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2017-MUS-116, no.14, pp.1-7, 2017-08-17

本稿では,音楽コーパスから和音系列とメロディに関する生成規則を統計的に学習し,それに基づいてメロディへの和声付けを行う手法を示す.従来の和声付け手法には,一拍ごとのコードの遷移を表現した隠れマルコフモデル(HMM)に基づく手法がある.しかしこの手法では,音楽理論において重要とされているコードのリズム,コードの機能(tonic, dominant, subdominant),コードの階層構造を明示的に表現できない.この問題を解決するため,確率的文脈自由文法による和音系列生成モデル,拍節マルコフモデルによるコードのリズム生成モデル,コードの条件付きマルコフモデルによる音高系列生成モデルからなる階層的生成モデルを提案する.さらに,提案モデルを用いてメロディに対する和音系列の推定を行うため,潜在変数であるコード記号とそのオンセット位置のそれぞれをsplit-mergeサンプリングという新しいサンプリング手法を含むメトロポリス・ヘイスティングス法に基づいて更新する手法を提案する.評価実験よりHMMに基づく手法に対して提案手法の和声付けタスクにおける精度が向上したことを示せた.
著者
糸山 克寿 尾形 哲也 奥乃 博
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012, no.29, pp.1-7, 2012-01-27

本稿では,多重奏音楽音響信号に対する自動和音和音手法について述べる.和音の認識においては,音楽的要素の関連性を考慮することが重要である.我々は,和音を表現する音響特徴であるクロマベクトルに加えて和音と関わりの深い音楽的要素であるベース音を用いた自動和音認識手法を構築した.和音遷移のパターンを事前に階層 Pitman-Yor 言語モデルで学習し,Viterbi アルゴリズムに基づく最大事後確率推定で和音系列を推定する.Beatles の 150 楽曲を用いた評価実験で,本手法は 73.7% の認識率を達成した.This paper describes a method that identifies musical chords in polyphonic musical signals. As musical chords mainly represent the harmony of music and are related to other musical elements such as melody and rhythm, we should be able to recognize chords more effectively if this interrelationship is taken into consideration. We use bass pitches as clues for improving chord recognition. The proposed chord recognition system is constructed based on Viterbi-algorithm-based maximum a posteriori estimation that uses a posterior probability based on chord features, chord transition patterns, and bass pitch distributions. Experimental results with 150 Beatles songs that has keys and no modulation showed that the recognition rate was 73.7% on average.
著者
吉井和佳 糸山克寿 後藤真孝
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.9, pp.1-8, 2014-08-18

本稿では,多数の楽器音が重畳している音楽音響信号を,音の三要素である音高 (基本周波数)・音色 (スペクトル包絡)・音量に分解するための確率的ソース・フィルタモデルについて述べる.ソース・フィルタ理論は楽器音分析に広く利用されており,楽器音のフーリエ変換スペクトルは,音源信号の基本周波数に起因するスペクトル微細構造と楽器音の音色を表すスペクトル包絡との積に分解される.このとき,スペクトル包絡が全極型モデルで表現できると仮定すると,理論的には線形予測分析 (LPC) を用いて,線形周波数領域でスペクトル包絡を推定することができる.しかし,実際には,調波構造のピークのみがスペクトル包絡からの信頼できるサンプルであるとみなせるため,スペクトル包絡推定に全周波数帯域を利用することは適切ではない.この問題の解決法のひとつに離散全極型モデルが知られているが,多重音に対して適用することはできなかった.本研究では,離散全極型モデルを LPC の多重音拡張である複合自己回帰モデルの枠組みに組み入れることで,調波構造が複数重畳した音響信号を扱うことができる無限重畳離散全極型モデルを提案する.本モデルは,人間の聴覚特性に則した対数周波数領域で定式化されるノンパラメトリックベイズモデルであり,適切な個数のスペクトル包絡とそこからサンプルされた適切な個数の調波構造を推定することができる.実験の結果,提案手法の有効性を確認した.
著者
矢澤一樹 糸山克寿 奥乃博
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.17, pp.1-6, 2013-08-24

本稿では,ギター演奏者の演奏支援をするために実際のギター演奏音から演奏者の習熟度に応じたタブ譜を自動生成する手法について述べる.具体的には,初級者向けには音符の欠落などを許容してでも演奏が容易なタブ譜を,上級者向けには音高を正確に再現するタブ譜を,それぞれ生成する.推定される運指の難易度は,音響再現度と運指容易度の相対的な重みをユーザー側で調整することによって変更可能である.本手法によって得られたタブ譜について音響再現度と運指容易度の両面から評価を行った結果,パラメータを変更することによって音高推定の適合率を保ったまま運指を簡略化できることが確認された.
著者
岸波 華彦 糸山 克寿 西田 健次 中臺 一博
出版者
一般社団法人 日本ロボット学会
雑誌
日本ロボット学会誌 (ISSN:02891824)
巻号頁・発行日
vol.40, no.4, pp.351-354, 2022 (Released:2022-05-20)
参考文献数
12

This paper addresses reconstruction of visual scenes based on echolocation, aiming to develop auditory scene understanding for robots and systems. Although scene understanding technology with a camera and a LIDAR has been studied well, it is prone to changes in lighting conditions and has difficulty in detecting invisible materials. Ultrasonic sensors are widely used, but their use is limited to distance estimation. There is an unavoidable risk of ultrasonic exposure since most ultrasonic power exists in inaudible frequency ranges. To solve these problems, we propose a framework for echolocation-based scene reconstruction (ELSR). ELSR can reconstruct a visual scene using the transmitted/received audible sound, and it exploits a Generative Adversarial Network (GAN) to learn translation from input sound to a visual scene. As GAN is originally designed for image input, we carefully considered the difference between image and sound input and propose introducing cross-correlation and trigonometric function-based features to input audio features. The proposed framework is implemented based on pix2pix, a kind of conditional GAN, and a dataset for ELSR consisting of 10,800 pairs of input sound and depth images recorded at 28 indoor locations was newly created. Experimental results using the dataset showed the effectiveness of the proposed framework ELSR and audio features.
著者
山本 雄也 叢 悠悠 島村 龍太郎 菅野 幸夫 北原 鉄朗 糸山 克寿
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2022-MUS-133, no.7, pp.1, 2022-01-18

本稿では第 133 回音楽情報科学研究会における既発表の国際会議・萌芽・デモ・議論セッションの発表内容について述べる.本セッションでは, 査読付きジャーナルもしくは国際会議にて既発表の研究成果や,これからの発展が期待される萌芽的な研究まで,幅広くポスター発表・デモ・議論できる場である.今回のセッションでは,合計 4 件の発表が行われる.
著者
安部 武宏 糸山克寿 吉井 和佳 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.50, no.3, pp.1054-1066, 2009-03-15
被引用文献数
1

本稿では,ある音高を持つ楽器音をもとにして,音色の歪みを抑えながら任意の音高を持つ楽器音を合成する手法について述べる.我々は音色の聴感上の差に関する音響心理学的知見に基づき,楽器音のスペクトログラム上で観察される音色特徴量として,(i) 倍音ピーク間の相対強度,(ii) 非調波成分の分布,(iii) 時間方向の振幅エンベロープの3つを定義する.まず,もとになる楽器音の音色特徴量を分析するため,糸山らの調波·非調波統合モデルを用いて楽器音を調波構造と非調波構造に分離する.音高操作時には,特徴量(i),(ii) の音高依存性を考慮しなければならない.そのため,音高に対する特徴量を3次関数で近似し,所望の音高における特徴量の値を予測する.32種類の楽器に対して音高操作を試みたところ,音高依存性を考慮しない場合と比べて合成音と実際の楽器音との距離が,スペクトル距離尺度では64.70%,MFCC距離尺度では32.31%減少し,手法の有効性が確かめられた.This paper presents a synthesis method that can generate musical instrument sounds with arbitrary pitches from a given musical instrument sound while constraining distorting timbral characteristics. Based on the psychoacoustical knowledge on auditory effects of timbre, we define timbral features on the spectrogram of a musical instrument sound as (i) relative amplitudes of harmonic components, (ii) distribution of inharmonic components, and (iii) temporal envelopes of harmonic components. First, to analyze timbral features of a seed, it is separated into harmonic and inharmonic components by using Itoyama's integrated model. In pitch manipulation, it is necessary to take into account the relation of pitch and features (i) and (ii). Therefore, we predict the values of each feature by using a cubic polynomial that approximates the feature distribution over pitches. Experimental results showed the effectiveness of our method; the spectral and MFCC distances between synthesized sounds and real sounds of 32 instruments were reduced by 64.70% and 32.31%, respectively.
著者
山田 泰基 Daniel Gabriel 糸山 克寿 西田 健次 中臺 一博
雑誌
第81回全国大会講演論文集
巻号頁・発行日
vol.2019, no.1, pp.115-116, 2019-02-28

本研究では, 複数の移動機体に搭載された複数マイクロホンアレイによる移動音源の 3 次元軌跡推定手法について検討する. 単独のマイクロホンアレイでは音源方向のみ推定可能で,音源位置の推定は困難である.複数マイクロホンアレイを用いることで三角測量に基づく音源位置の推定が可能になり,さらに複数の移動機体を用いることでロバストな移動音源軌跡が可能になると期待される.各マイクロホンアレイから得られた音源方向より音源位置の候補点を算出し,各候補点に重みをつけながらUnscented Kalman Filterを適用することで移動音源軌跡を推定する.数値シミュレーションによる検証では,提案手法の推定誤差は0.1[m]以下であることが確認された.
著者
奥乃 博 中臺 一博 公文 誠 糸山 克寿 吉井 和佳 佐々木 洋子 昆陽 雅司 合原 一究 鈴木 麗璽 加賀美 聡 田所 諭
出版者
早稲田大学
雑誌
基盤研究(S)
巻号頁・発行日
2012-05-31

本研究では,ロボット聴覚ソフトHARKの「聞き分ける技術」を基に,自然環境・災害現場でも通用するように,豊富な機能拡充・高性能化と応用に取り組んだ.HARKはWindows版提供により9万件弱のダウンロードがあった.多人数インタラクション,音楽共演ロボットの可能性を示し, iGSVD-MUSICの開発によるUAV用音源定位の頑健化,索状ロボット用に姿勢推定・音声強調の開発により,レスキューロボットへの音利用の可能性を示し,さらに,カエルの合唱の解明,野鳥の鳴交解析のためのHARKBirdの開発と実地検証により音響生態学への可能性を実証し,ロボット聴覚の多面的展開のための基礎技術が確立できた.
著者
糸山 克寿 坂東 宜昭 粟野 浩光 合原 一究 吉井 和佳
雑誌
研究報告音楽情報科学(MUS) (ISSN:21888752)
巻号頁・発行日
vol.2015-MUS-107, no.55, pp.1-6, 2015-05-16

本稿では,映像と音響信号に対して統合的に非負値行列因子分解 (NMF) を行うことでカエルなどの動物の合唱行動を分析する手法について報告する.カエルをはじめとした様々な動物は合唱 (音声によるコミュニケーション) を行うことが知られており,各個体がどのように合唱に参加しているかを調べることはその生態の解明に重要である.空間的な音場を光に変換するデバイスであるカエルホタルを用いて,ビデオカメラで録画した映像およびモノラル音響信号に対して統合的にNMFを行うことで,各個体の鳴き声を分離抽出する.カエルホタルの輝度とパワースペクトルの振幅をNMFのアクティベーションとして共有させることで,スペクトル形状が類似した同種別個体の鳴き声を相異なる基底へと分解する.
著者
池宮由楽 糸山克寿 吉井和佳 奥乃博
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-104, no.23, pp.1-6, 2014-08-18

本稿では,音楽音響信号に含まれる歌声の基本周波数 (F0) 軌跡に対して歌唱表現 (ビブラート・グリッサンド・こぶし) を転写することを可能とするシステムを提案する.能動的音楽鑑賞インタフェースは,エンドユーザのインタラクティブな音楽鑑賞を実現することを目的とした研究アプローチである.これには既存楽曲の加工支援も含まれ,歌声に関連するものでは,声質変換や歌声分離などの研究がなされている.本研究では,歌唱の歌い回しの加工を扱い,特に混合音中の歌声の F0 軌跡を任意に編集するインタフェースを実現する.ユーザは,歌声の任意の箇所を指定し,好みの歌唱表現を転写することで,歌い回しを自由に加工することができる.また,事前に市販楽曲からプロ歌手の歌唱表現を蓄積したデータベースを作成し,ユーザはそのデータベースから歌唱表現を参照することで直感的に転写を行うことが可能となる.歌唱表現の転写は,対数周波数軸において選択的に歌声のスペクトルのみをシフトさせ,伴奏音への影響を抑圧しながら歌声の音高を操作することで行われる.このとき,音韻性を保持するためスペクトル包絡を用いて音色の補正を行う.実際にユーザが表現の転写箇所を指定したり,F0 の存在範囲を提示するため,Graphical User Interface (GUI) の作成を行っている.実験では,音色補正の有効性やユーザ入力を用いた F0 推定の頑健性などを確認した.
著者
奥乃 博 尾形 哲也 駒谷 和範 高橋 徹 白松 俊 中臺 一博 北原 鉄朗 糸山 克寿 浅野 太 浅野 太
出版者
京都大学
雑誌
基盤研究(S)
巻号頁・発行日
2007

音環境理解の主要機能である混合音の音源定位・分離・認識技術を開発し,ロボット聴覚ソフトウエアHARKとして公開し,国内外で複数の講習会を実施した. HARKを応用し,複数話者同時発話を認識する聖徳太子ロボット,ユーザの割込発話を許容する対話処理などを開発し,その有効性を実証した.さらに,多重奏音楽演奏から書くパート演奏を聞き分ける技術,実時間楽譜追跡機能を開発し,人と共演をする音楽ロボットなどに応用した。
著者
糸山克寿 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告エンタテインメントコンピューティング(EC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.37, pp.81-88, 2007-05-11

CDなどの複雑な多重奏音楽音響信号中の調波構造を持つ楽器音と持たない楽器音を同時に分離するためのモデルの作成と,楽譜情報を事前情報として与えた場合の制約付きモデルパラメータ推定手法について述べる.調波構造の有無によって楽器音の性質は大きく異なるため,従来の手法ではこれらの音を排他的に扱うことしかできなかった.本稿では,調波構造と非調波のそれぞれを表現する2つのモデルを統合した新たな重み付き混合モデルにより,両者の統合的手法を開発した.モデルのパラメータは最大事後確率推定に基づくEMアルゴリズムを用いて推定する.さらに,モデルの過学習を防ぎ同一楽器内のパラメータ一貫性を維持するための制約条件も同時に用いる.ポピュラー音楽のSMFを用いた評価実験で,本手法によりSNRが1.5 dB向上することを確認した.This paper describes a sound source separation method for polyphonic sound mixtures of music including both harmonic and inharmonic sounds, and constrained parameter estimation using standard MIDI files as prior information. The difficulties in dealing with both types of sound together have not been addressed in most previous methods that have focused on either of the two types separately, because the properties of these sounds are quite different. We therefore developed an integrated weighted-mixture model consisting of both harmonic-structure and inharmonic tone models. On the basis of the MAP estimation using the EM algorithm, we estimated all model parameters of this integrated model under several original constraints for preventing over-training and maintaining intra-instrument consistency. We confirmed that the integrated model increased the SNR by 1.5 dB.