著者
北原 鉄朗 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2721-2733, 2006-12-01
参考文献数
25
被引用文献数
2

本論文では,多重奏に対する音源同定において不可避な課題である「音の重なりによる特徴変動」について新たな解決法を提案する.多重奏では複数の楽器が同時に発音するため,各々の周波数成分が重なって干渉し,音響的特徴が変動する.本研究では,混合音から抽出した学習データに対して,各特徴量のクラス内分散・クラス間分散比を求めることで,周波数成分の重なりの影響の大きさを定量的に評価する.そして,線形判別分析を用いることで,これを最小化するように特徴量を重み付けした新たな特徴量軸を生成する.これにより,周波数成分の重なりの影響をできるだけ小さくした特徴空間が得られる.更に,音楽的文脈を利用することで音源同定の更なる高精度化を図る.実楽器音データベースから作成した二重奏〜四重奏の音響信号を用いた実験により,二重奏では50.9%から84.1%へ,三重奏では46.1%から77.6%へ,四重奏では43.1%から72.3%へ認識率の改善を得,本手法の有効性を確認した.
著者
奥乃 博 中臺 一博 水本 武志
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会誌 = The journal of the Institute of Electronics, Information and Communication Engineers (ISSN:09135693)
巻号頁・発行日
vol.95, no.5, pp.401-404, 2012-05-01
参考文献数
7
被引用文献数
4

私たちが日常耳にする音は複数の音や背景雑音が混じった混合音である.実世界で音情報を活用するためには「聞き分ける」機能が不可欠である.聞き分けるセンサ技術は,インストルメンテーション(装置化)という観点から音を収録するデバイス(センサ)と収録音に対する処理ソフトウェアから構成される.本稿では,混合音のセンサ技術の動向を,ロボット聴覚とカエルの合唱の観測について解説を行う.混合音を聞き分けるという立場から,音源定位,音源分離,分離音認識に取り組むべきであると考え,音環境理解という研究を過去15年進めてきた.離れて聞くという技術は,ロボットでは不可欠の技術であり,ロボット聴覚に不可欠な機能を統合的に提供するソフトウェアHARKを開発し,公開している.HARKの設計思想から具体的な実装まで概観し,その応用として,音環境可視化技術と人ロボット共生学への応用について報告する.また,カエルの合唱機構を音を聞き分けて解析する応用では,フィールドで聞こえる様々な音のために,音響処理だけでは難しいので,近傍の音を拾ってLEDを光らせる「カエルホタル」を開発した.カエルホタルを多数並べて実際の田んぼで観測し,カエルの鳴き方の観測実験についても合わせて報告する.以上の報告を通して,混合音を聞き分ける技術が,今後重要な技術になることを提案する.
著者
駒谷 和範 上野 晋一 河原 達也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.75, pp.59-64, 2003-07-18
参考文献数
12
被引用文献数
7

各ユーザに応じた協調的な応答を行うユーザモデルについて述べ,これを実装した音声対話システムの評価実験について報告する.従来のユーザモデルの研究では,ユーザの知識に重点を置いたものや典型的なユーザを想定したものがあるが,我々はより包括的なユーザモデルを提案する.具体的には,システムに対する習熟度,ドメインに関する知識レベル,性急度の3つの次元を定義する。これらのモデルは,決定木学習により自動的に得ることができる.実際の対話データを用いたユーザモデルの判別実験では,3つの次元それぞれに対して妥当な判別制度を得た.これらのユーザモデルに基づく対話戦略を,我々の研究室で開発している京都市バス運行情報案内システムに実装した.評価実験により,各ユーザに適応した協調的応答が,熟練したユーザに対する対話時間を増加させることなく,初心者に対して適切なガイダンスとなることが示された.We address appropriate user modeling in order to generate cooperative responses to each user in spoken dialogue systems. Unlike previous studies that focus on user's knowledge or typical kinds of users, the user model we propose is more comprehensive. Specifically, we set up three dimensions of user models: skill level to the system, knowledge level on the target domain and the degree of hastiness. Moreover, the models are automatically derived by decision tree learning using real dialogue data collected by the system. We obtained reasonable classification accuracy for all dimensions. Dialogue strategies based on the user modeling are implemented in Kyoto city bus information system that has been developed at our laboratory. Experimental evaluation shows that the cooperative responses adaptive to individual users serve as good guidance for novice users without increasing the dialogue duration for skilled users.
著者
奥乃 博 中臺 一博 公文 誠 糸山 克寿 吉井 和佳 佐々木 洋子 昆陽 雅司 合原 一究 鈴木 麗璽 加賀美 聡 田所 諭
出版者
早稲田大学
雑誌
基盤研究(S)
巻号頁・発行日
2012-05-31

本研究では,ロボット聴覚ソフトHARKの「聞き分ける技術」を基に,自然環境・災害現場でも通用するように,豊富な機能拡充・高性能化と応用に取り組んだ.HARKはWindows版提供により9万件弱のダウンロードがあった.多人数インタラクション,音楽共演ロボットの可能性を示し, iGSVD-MUSICの開発によるUAV用音源定位の頑健化,索状ロボット用に姿勢推定・音声強調の開発により,レスキューロボットへの音利用の可能性を示し,さらに,カエルの合唱の解明,野鳥の鳴交解析のためのHARKBirdの開発と実地検証により音響生態学への可能性を実証し,ロボット聴覚の多面的展開のための基礎技術が確立できた.
著者
奥乃 博
雑誌
全国大会講演論文集
巻号頁・発行日
vol.39, pp.317-318, 1989-10-16

SOARはゴール達成を問題空間の発見的探索として構成する問題解決システムである。SOARではゴールおよび制御情報が一元管理されているので、その推論過程をキャッシュ化することによって学習を行ない、新たなオペレータあるいは制御機構を作成することができる。このような学習はチャンキングと呼ばれ、一種の定理あるいはマクロ・オペレータに相当するルールを作成する。学習されたルールは推論の簡略化には役立つが、実際にオペレーションするような応用(例えば、ロボット)では、マクロ・オペレータの効率が良くないと役に立たない場合がある。操作効率という視点は、SOARをロボットのセットアップ時の学習に応用するときには極めて重要になる。このような最適でないルールを生成するチャンキングは、過剰一般化と見なすことができるが、まだ検討されていない。あらゆる場合を想定してSOARのプログラムを書くことも一解決策ではあるが、汎用的なアプローチとは言えない。本稿では、多重文脈推論を用いた、操作効率の最もよいルールの学習方法を提案し、ATMSによる実装を検討する。
著者
伊藤亮介 駒谷 和範 河原 達也 奥乃 博
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2003, no.14(2002-SLP-045), pp.107-112, 2003-02-07

ロボットとの音声対話をより円滑にするためには,言語的情報だけでなく話者の心的状態感情を取り扱う必要がある.本研究では,親近感,喜び,困惑の感情を対象として,WOZ 方式によって収集された子供とロボットとのリアルな対話データを用いて,韻律的特徴に基づく分析・判別を行う.特に,対話であるという状況を考慮して,それらの特徴量の発話ごとの変化量や,発話間の時間間隔を利用する.これにより,事前学習を必要としないリアルタイムな判別を可能にする.判別にはSVM 及びC により学習した決定木を用い,困惑で,喜びで,親近感での判別精度を得た.この感情判別を導入した音声対話機能を実ロボットRobovie に実装し,動作の確認を行った.
著者
平山 直樹 森 信介 奥乃 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.112, no.369, pp.7-12, 2012-12-13

本稿では,日本語方言音声認識のための言語モデルの統計的構築法を開発する.方言言語モデル構築においては,その方言の言語コーパスの不足が大きな課題である.その解決のため,大規模共通語言語コーパスの単語単位での方言への変換を行う.共通語・方言間の対訳コーパスを用いて統計的に変換ルールを学習し,重み付き有限状態トランスデューサ(WFST)で変換器を実装する.このWFSTに共通語文章を入力することで,対応する方言文章が自動的に出力される.本手法で構築した方言言語モデルを用いて方言音声認識を行うことで,共通語言語コーパスで学習した言語モデルより高い認識精度が得られた.
著者
池宮由楽 糸山克寿 吉井和佳 奥乃博
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-104, no.23, pp.1-6, 2014-08-18

本稿では,音楽音響信号に含まれる歌声の基本周波数 (F0) 軌跡に対して歌唱表現 (ビブラート・グリッサンド・こぶし) を転写することを可能とするシステムを提案する.能動的音楽鑑賞インタフェースは,エンドユーザのインタラクティブな音楽鑑賞を実現することを目的とした研究アプローチである.これには既存楽曲の加工支援も含まれ,歌声に関連するものでは,声質変換や歌声分離などの研究がなされている.本研究では,歌唱の歌い回しの加工を扱い,特に混合音中の歌声の F0 軌跡を任意に編集するインタフェースを実現する.ユーザは,歌声の任意の箇所を指定し,好みの歌唱表現を転写することで,歌い回しを自由に加工することができる.また,事前に市販楽曲からプロ歌手の歌唱表現を蓄積したデータベースを作成し,ユーザはそのデータベースから歌唱表現を参照することで直感的に転写を行うことが可能となる.歌唱表現の転写は,対数周波数軸において選択的に歌声のスペクトルのみをシフトさせ,伴奏音への影響を抑圧しながら歌声の音高を操作することで行われる.このとき,音韻性を保持するためスペクトル包絡を用いて音色の補正を行う.実際にユーザが表現の転写箇所を指定したり,F0 の存在範囲を提示するため,Graphical User Interface (GUI) の作成を行っている.実験では,音色補正の有効性やユーザ入力を用いた F0 推定の頑健性などを確認した.
著者
竹内郁雄 奥乃博 大里延康
雑誌
情報処理学会研究報告プログラミング(PRO)
巻号頁・発行日
vol.1982, no.34(1982-PRO-020), pp.1-8, 1982-10-18
著者
大里延康 竹内郁雄 奥乃博
雑誌
情報処理学会研究報告プログラミング(PRO)
巻号頁・発行日
vol.1984, no.71(1984-PRO-031), pp.5-12, 1985-03-12
著者
奥乃 博 湊 真一
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.36, no.8, pp.1789-1799, 1995-08-15
被引用文献数
2 1

BDD(二分決定グラフ)はブール関数のコンパクトな表現方法である。我々は、BDDを使用して組合せ問題の複数の解を同時に表現したり、ATMSといった多重文脈型真偽維特システムの機能拡張をする方法を検討してきた。与えられた問題記述あるいは制約条件からBDDを構築する過程は制約充足問題の解法とみなすことができる。本稿では、2種類のBDD、算術諭理式が使用できる通常のBDDと組合せ集合が使用できるZBDD(Zero?Suppressed BDD)を取り上げ、それらを用いた割約充足問題の解法を検討する。制約充足問題のデータと制約条件のコーディング方法を提案し、N?Queens問題や魔方陣の問題などの具体的な問題を取り上げ、2種類のBDDによる解法を評価する。さらに、BDDによる解法を、制約充足問題での一貫性アルゴリズムやATMSと比較し、評価を行う。BDDでは、一旦適用された制約条件が以降ずっと成立するという単調一貫性維持が成立する、一方、ZBDDでは、組合せ集合演算の性質から、制約条件が適周する対象によって制限される。しかし、この結果ZDDDでは段階的解法が容易となる。
著者
奥乃 博 中谷 智広 川端 豪
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.38, no.3, pp.510-523, 1997-03-15
被引用文献数
6

本稿では,一般環境下での音声認識のための前処理として音響ストリーム分離を使用するうえでの問題点について検討する.本稿の前半では,音声ストリーム分離の方法を提案する.提案する方法は,調波構造ストリーム断片の抽出とそのグルーピング,および,入力音からすべての調波構造を除いた残差での非調波構造の補完から構成される.本稿の後半では,分離した音声ストリームを離散型単一コードブック型HMM?LRで認識するうえでの問題点を解明し,その解決策を提示する.提案する音声ストリーム分離方法で方向情報抽出のために用いたバイノーラル入力がスペクトル変形を引き起こし,音声認識に影響を与えることが判明した.この対策として,4方向で頭部音響伝達関数をかけた学習データでHMM?LRのパラメータを再学習する方法を提案した.2人の話者の500組の子音を含んだ発話(SN比0??3dB)の音声認識実験を5種類行い,音声ストリーム分離により上位10候補累積認識率に対する混合音による認識誤りを最大77%削減することができた.This paper reports the preliminary results of experiments on listening to several sounds at once.Two issues are addressed:segregating speech streams from a mixture of sounds,and interfacing speech stream segregation with automatic speech recognition(ASR).Speech stream segregation(SSS) is designed as three processes:extracting harmonic fragments;grouping these extracted harmonic fragments according to their directions;and substituting the non-harmonic residue of harmonic fragments for non-harmonic parts of each group.The main problem in interfacing SSS with HMM-based ASR is how to reduce the recognition errors caused by spectral distortion of segregated sounds mainly due to binaural input.Our solution is to re-train the parameters of the HMM with training data binauralized for four directions.Experiments with five sets of 500 mixtures of two women's/men's utterances of a word(SNR is 0dB to -3dB)showed that the error of up to the 10th candidate of word recognition was reduced up to 77% by speech stream segregation.
著者
吉井 和佳 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.82, pp.91-96, 2005-08-05

本稿では、認識誤りを含むドラム音の発音時刻列からドラムパターンを推定し、認識誤り補正を行う手法について述べる。本稿におけるドラムパターンとは、バスドラム音およびスネアドラム音の発音時刻列のペアで構成される周期的な時間構造のことを指す。まず、我々が提案したドラム音認識手法を音楽音響信号に適用してドラム音の発音時刻列を得る。次に、発音時刻列を短時間フーリエ解析しても止まる周期長に基づき、ドラムパターンを切り出す。ここで、同じドラムパターンは連続して反復されやすいという仮定をおき、各ドラムパターン区間における実際の発音時刻列を推定する。最後に、切り出されたドラムパターンと推定された発音時刻列との比較により、認識誤りの可能性が高い時刻を検出し、再検証を行う。ポピュラー音楽50曲を用いたドラム音認識実験で、補正手法により認識率が77.4% から80.7%に改善することを確認した。may include recognition errors and corrects them by using the drum patterns. In this paper, drum patterns are defined as periodic temporal structures which are pair of onset-time sequences of bass and snare drum sounds. First, we apply our drum sound recognition method to musical audio signals, and obtain onset-time sequences of drum sounds. Next, we calculate the period length of those sequences by applying short-time Fourier transform, and extract drum patterns from them. Under the assumption that the same drum patterns tend to be repeated, we estimate an actual onset-time sequences in duration of each drum pattern. Finally, by comparing each drum pattern with its corresponding estimated onset-time sequences, we detect time points where recognition errors may have been made, and verify those points. The experiments of drum sound recognition with 50 popular songs showed that our correction method improved the recognition accuracy from 77.4% to 80.7%.
著者
リム アンジェリカ 水本 武志 大塚琢馬 古谷 ルイ賢造カイエ 尾形 哲也 奥乃 博
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3599-3610, 2011-12-15

聞く,見るは,共演者が仲間の演奏者とテンポを合わせて演奏するために重要なスキルである.画像キュー(cue,合図)を検知し,他の演奏者に耳を傾けることによって,演奏者はいっせいに演奏を始め,テンポの緩急の合図に合わせ,さらに,いっせいに演奏を終えることができる.本稿では,人間のフルート奏者がアンサンブルリーダを担い,ロボットは伴奏者として人間の演奏に追従する問題を扱う.まず,フルート奏者の3種類のジェスチャを提案し,画像キューによる認識,音響ビートと画像キューとの統合によるテンポ推定について述べ,テルミン演奏共演ロボットのジェスチャ認識について報告する.初期実験で3タイプの画像キューが83%以上で検出できること,また,画像キューと音響ビート検出とを組み合わせることにより,テンポ検出が0.5秒以内に行えればビート追跡が安定することが分かった.この結果,フルート奏者の指示に合わせて共演者音楽ロボットがテルミンを演奏し,歌を歌うことが可能となった.Listening and watching are important skills for co-players to play in time with fellow musicians. By detecting visual cues and listening to other players, musicians can start together, stop together, and follow a leader's visual cues of changes in tempo. In this paper, we formalize three visual cues for the case of flutists, and describe how our thereminist robot co-player system detects them. Initial experiments show over 83% detection rates for our 3 types of visual cues. Additionally, by coupling visual cues and acoustic beat detection, the robot can extract a tempo in half a second. The resulting robot co-player can play theremin and sing a song with the lead of a human flutist.
著者
奥乃 博 合原 一究
出版者
京都大学
雑誌
挑戦的萌芽研究
巻号頁・発行日
2012

(1)ギター演奏の手の動きとギター演奏音響信号との情報統合と,複数の追跡機構の結果統合による裏拍等に頑健なビート追跡法を開発し,音楽共演者ロボットを開発.(2)カエルの合唱でのリーダに倣ったリーダ度を設計し,実時間でリーダ度を求め,リーダ度が最も高いパートに演奏を合わせる合奏機構を開発し,音楽共演ロボットで有効性を確認.(3)2種の信号帯域に応答する音光変換装置「カエルホタル」の開発し,2種類のカエルの合唱の同時観測に日豪で成功.
著者
吉田 尚水 中臺 一博 奥乃 博
出版者
The Robotics Society of Japan
雑誌
日本ロボット学会誌 (ISSN:02891824)
巻号頁・発行日
vol.28, no.8, pp.970-977, 2010

Noise-robust Automatic Speech Recognition (ASR) is essential for robots which are expected to communicate with human in a daily environment. In such an environment, Voice Activity Detection (VAD) performance becomes poor, and ASR performance deteriorates due to noises and VAD failures. To cope with these problems, it is said that humans improve speech recognition performance by using visual information like lip reading. Thus, we propose two-layered audio-visual integration framework for VAD and ASR. The two-layered AV integration framework includes three crucial methods. The first is Audio-Visual Voice Activity Detection (AV-VAD) based on Bayesian network. The second is a new lip-related visual feature which is robust for visual noises. The last one is microphone array processing to improve Signal-to-Noise Ratio (SNR) of input signal. We implemented prototype audio-visual speech recognition system based on our proposed framework using HARK which is our robot audition system. Through voice activity detection and speech recognition experiments, we showed the effectiveness of Audio-Visual integration, microphone array processing, and their combination for VAD and ASR. Preliminary results show that our system improves 20 and 9.7 points of ASR results with/without microphone array processing, respectively, and also improves robustness against several auditory/visual noise conditions.