著者
中臺 一博 奥乃 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.110, no.401, pp.7-12, 2011-01-20
参考文献数
18

我々が取り組んでいるロボット聴覚研究について,その位置づけや意義を解説し,これを実現するための高雑音下ハンズフリー音声認識へも適用可能な技術としてマイクロホンアレイを用いた動的環境下の実時間音源分離とその音声認識への適用について紹介する.紹介する技術は,ロボット聴覚ソフトウェアHARKとしてオープンソースで公開を行っている.そこで,これらの技術の有効性を,実際のロボットへのHARKの適用事例を通じて示す.
著者
中臺一博 奥乃博
雑誌
デジタルプラクティス
巻号頁・発行日
vol.2, no.2, pp.133-140, 2011-04-15

ロボット聴覚用のオープンソースソフトウェアとして研究開発を行っているHARK (HRI-JP Audition for Robots with Kyoto Univ.) の展開について説明する.HARK は複数のマイクロフォン(マイクロフォンアレイ)からの入力をもとに,音源定位,音源分離,さらに分離音声の認識までをサポートするソフトウェアであり,GUIプログラミング環境上で様々なモジュールを配置・接続することにより,形状やマイクロフォンレイアウトが異なるロボットに対応させたり,用途に合わせたロボット聴覚システムを構築したりすることができる.本稿では,HARK の設計指針を解説し,HARKを用いて構築したシステムの応用例,HARKの展開も併せて報告する.
著者
西山 正紘 北原 鉄朗 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. MUS,[音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.69, pp.31-36, 2007-02-23
参考文献数
13
被引用文献数
8

本稿では,アクセント構造およびムードの一致に基づいて,音楽と映像の調和の度合い(調和度)を計算する枠組を提案する.一般に,音楽と映像の調和要因としては,時間的なアクセントの一致による時間的調和と,ムードの一致による意味的調和の2つが存在する.従来の研究では,それぞれの要因のみしか扱っておらず,両要因を統一的に扱った事例は存在しない.そこで本稿では,音楽と映像の調和度を,アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する.アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて,ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する.実映像作品を対象とし,本手法の有効性を実験により評価した.
著者
奥乃 博 中臺 一博 大塚琢馬
出版者
一般社団法人情報処理学会
雑誌
情報処理 (ISSN:04478053)
巻号頁・発行日
vol.50, no.8, pp.729-734, 2009-08-15

音楽のリズムに合わせて振舞う音楽ロボットを目標に据えると, 音楽情報処理の課題が見えてくる.
著者
正木 寛人 斎藤逸郎 石塚 満 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.37, no.11, pp.1969-1979, 1996-11-15
被引用文献数
3

三面図は3次元モデルを表現するために最もよく使用されるが それから3次元モデルを復元するときにはしばしば複数の解釈が生ずるという暖昧性の問題があり 従来はヒューリスティクスに基づき妥当な解釈を生成する方法がとられてきた. 我々はこの問題に対し 適切な方向から見た面図を新たに1枚追加することで暖昧性を除去することができると考え その追加面図に含まれることが要求される物体要素を計算する手法を考案した. 本手法は 複数解釈された3次元モデルの中から ユーザとのインタラクション(所望のモデルの指定)を通して暖昧性の所在を探るものであり すべての人間が常識的に感じるとは限らないないモデルが対象である場合 あるいは機械製図などの分野において用いる有効な補助面図の視線方向を決定する場合に特に有効である. 復元過程におけるデータ保持を効率よく行うために 内部処理には論理関数のコンパクトな表現法である二分決定グラフ(BDD)を使用し 暖昧性解消のために用いる組合せ集合の管理には集合のコンパクトな表現である Zero-Suppressed BDD (ZBDD)を使用している. 本手法に基づく三面図解釈の試作システム TOVIN (Three Orthographic Views INterpreter)についても記す.Although a set of three orthographic views is one of the most common representations of three-dimensional mechanical objects, it potentially has ambiguities which result in multiple interpretations of solids to be reconstructed. This paper presents a new method for eliminating the ambiguities by adding a new mapping plane, and describes its implementation in a prototype system TOVIN (Three Orthographic Views INterpreter). The processing of TOVIN consists of two parts. First, it encodes given views into pseudo Boolean formulas by applying reconstruction rules. By employing Binary Decision Diagrams (BDDs), TOVIN computes all possible interpretations efficiently and represents them compactly. Next, TOVIN requests a user to specify one from them on a display, and searches a set of critical object elements (edges and/or faces) to determine an additional mapping plane. This part employs Zero-suppressed BDDs (ZBDDs) which allow a compact representation of combinatorial sets and efficient set operations. The TOVIN runs quite efficiently thanks to the BDDs and the ZBDDs; this efficiency is the most salient feature of the system.
著者
西山 正紘 北原 鉄朗 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2007, no.15(2007-MUS-069), pp.31-36, 2007-02-23

本稿では、アクセント構造およびムードの一致に基づいて、音楽と映像の調和の度合い(調和度)を計算する枠組を提案する。一般に、音楽と映像の調和要因としては、時間的なアクセントの一致による時間的調和と、ムードの一致による意味的調和の2つが存在する。従来の研究では、それぞれの要因のみしか扱っておらず、両要因を統一的に扱った事例は存在しない。そこで本稿では、音楽と映像の調和度を、アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する。アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて、ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する。実映像作品を対象とし、本手法の有効性を実験により評価した。
著者
山本 俊一 中臺 一博 辻野 広司 奥乃 博
出版者
The Robotics Society of Japan
雑誌
日本ロボット学会誌 = Journal of Robotics Society of Japan (ISSN:02891824)
巻号頁・発行日
vol.23, no.6, pp.743-751, 2005-09-15
被引用文献数
12

Robot audition is a critical technology in creating an intelligent robot operating in daily environments. To realize such a robot audition system, we have designed a missing feature theory based interface between sound source separation and automatic speech recognition (ASR) . In this interface, features distorted by speech separation are detected from input speech as missing features. The detected missing features are masked on recognition to avoid severe deterioration of recognition performance. By using the interface, we developed the robot audition system which recognizes multiple simultaneous speech. We also assess its general applicability by implementing it on three different humanoids, i.e., Honda ASIMO, SIG2, and Replie of Kyoto University. By using three simultaneous speeches as benchmarks, its general applicability was confirmed. When triphone is used and a size of vocabulary is 200 words, the average word correct of three simultaneous speech are 79.7%, 78.7%, and 82.7% for ASIMO, SIG2, and Replie, respectively.
著者
藤原弘将 後藤 真孝 奥乃 博
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.51, no.10, pp.1995-2006, 2010-10-15

本論文では,歌声の基本周波数(F0)と母音音素を同時に推定可能な新たな手法について述べる.本手法は,F0と母音音素だけでなく,歌手名や性別などの要素も同時に推定できるように設計されているため,混合音中の歌声を認識するための新たなフレームワークと考えることができる.本手法は,歌声とその他の伴奏音が混ざった状態を,歌声を分離するのではなく,そのままの形で統計的にモデル化する.また,信頼性の高い歌声のスペクトル包絡を推定するために,様々なF0を持つ複数の音の調波構造を使用する.F0と母音音素の同時推定を,ポピュラー音楽6歌手10曲で評価した結果,提案法によりF0推定の性能が平均3.7ポイント,音素推定の性能が平均6.2ポイント向上することを確認した.A novel method is described that can be used to concurrently recognize the fundamental frequency (F0) and vowel phoneme of a singing voice (vocal) in polyphonic music. This method can be considered as a new framework for recognizing a singing voice in polyphonic music because it is designed to concurrently recognize other elements of a singing voice including singer's name and gender, though this paper focuses on the F0 and vowel phoneme. Our method stochastically models a mixture of a singing voice and other instrumental sounds without segregating the singing voice. It can also estimate a reliable spectral envelope by estimating it from the harmonic structure of many voices with various F0s. The experimental results of F0 and phoneme recognition with 10 popular-music songs by 6 singers showed that our method improves the recognition accuracy by 3.7 points for F0 estimation and 6.2 points for the phoneme recognition.
著者
奥乃 博 尾形 哲也 駒谷 和範 高橋 徹 白松 俊 中臺 一博 北原 鉄朗 糸山 克寿 浅野 太 浅野 太
出版者
京都大学
雑誌
基盤研究(S)
巻号頁・発行日
2007

音環境理解の主要機能である混合音の音源定位・分離・認識技術を開発し,ロボット聴覚ソフトウエアHARKとして公開し,国内外で複数の講習会を実施した. HARKを応用し,複数話者同時発話を認識する聖徳太子ロボット,ユーザの割込発話を許容する対話処理などを開発し,その有効性を実証した.さらに,多重奏音楽演奏から書くパート演奏を聞き分ける技術,実時間楽譜追跡機能を開発し,人と共演をする音楽ロボットなどに応用した。
著者
奥乃 博 中臺 一博
出版者
一般社団法人 電気学会
雑誌
電気学会誌 (ISSN:13405551)
巻号頁・発行日
vol.131, no.3, pp.159-163, 2011-03-01 (Released:2011-03-01)
参考文献数
11
被引用文献数
1

本記事に「抄録」はありません。
著者
吉井 和佳 後藤 真孝 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.127, pp.55-60, 2003-12-21
参考文献数
8
被引用文献数
6

本稿では,実世界の音楽音響信号を対象としたドラムスの音源同定について述べる.このような音響信号に対してドラムスの音源同定を行う上での問題点は,曲ごとにドラムスの音色が大きく異なり,対象曲に使用されているドラムスの正確なテンプレートが事前に用意できないことである.我々は,この問題を解決するために,新しいテンプレート適応手法とテンプレートマッチング手法を提案する.まず,テンプレート適応手法を用いて,各ドラムごとに1つの基本テンプレートを,対象曲中に使用されているドラム音に適応させる.次に,距離尺度を改良したテンプレートマッチング手法を用いて,ドラムスの音源同定を行う.ポピュラー音楽を対象にした音源同定実験の結果,テンプレート適応により,バスドラムとスネアドラムの平均認識率が68%から85%まで改善された.This paper describes drum sound identification for real-world polyphonic musical audio signals. The most critical problem with drum sound identification is that acoustic features of drum sounds vary with each musical piece, and thus we cannot prepare their precise templates in advance. To solve this problem, we propose new template-adaptation and template-matching methods. The former method adapts a single base template model prepared for each drum sound to the corresponding drum sound appeared in the target musical piece. The latter method uses the distance measure that enables the adapted templates to be matched with the corresponding sounds in a mixture of them and other instruments. Experimental results showed that the average accuracy of identifying bass and snare drums in popular music is improved from around 68% to around 85% by the template adaptation.
著者
奥乃 博 中臺 一博 駒谷 和範
出版者
京都大学
雑誌
特定領域研究
巻号頁・発行日
2003

ヒューマノイドと人間との柔軟なコミュニケーションのために,混合音を聞き分け理解する機能を設計することを目的としている.平成15年度は,前年度開発をした方向情報や話者情報などの複数のレベルで視覚と聴覚を統合したアクティブ方向通過型フィルタ(ADPF)の高性能化,及び,ADPFを使用した音源分離システムと音声認識システムのインタフェース化を行い,簡単な3話者同時発話認識を,複数のロボット上に実現した.また,日本ロボット学会に「ロボット聴覚」研究専門委員会を設立した.(1)アクティブ方向通過型フィルタ(ADPF)の散乱理論による高性能化:画像と音から得られる話者の方向情報を基に,特定の方向からの音を分離するADPFでは,2本のマイクロフォンで得られる入力音から求めた両耳間位相差と両耳間強度差を用いて方向情報を得ていた.聴覚エピポーラ幾何に加えて散乱理論により頭部音響伝達関数の近似精度を向上させた結果,30度以上の周辺領域で音源定位と音源分離性能を大幅に向上させることができた.さらに,2種類のヒューマノイドロボット,SIG2とReplieに実装し,本手法の一般性を確認した.(2)3話者同時発話認識(聖徳太子ロボットの予備実験):昨年5月に放映された「鉄腕アトムを作る」(NHK)では方向と話者に依存した音響モデルを使用し3話者同時発話認識を行っていた.ADFPで得られる分離音は,周波数成分での特徴量が欠け,時間成分でのデータも喪失しているので,単一の音響モデルで済ませるために,ミッシングフィーチャ理論に基づいた音声認識システムを開発し,演繹ミッシングマスクにより,分離音の認識精度が大幅に向上することを確認した.(3)音一般の認識と対話システムへの展開:音声を用いた柔軟な対話システム構築のために,音声認識誤りに確信度を導入し,不要な問い合わせを解消する方法を開発した.また,非音声認識のために,楽器音認識と擬音語認識にも取り組み,単音について認識技法を確立した.
著者
石原 一志 駒谷 和範 尾形 哲也 奥乃 博
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 = Transactions of the Japanese Society for Artificial Intelligence : AI (ISSN:13460714)
巻号頁・発行日
vol.20, pp.229-236, 2005-11-01
被引用文献数
5 2

Environmental sounds are very helpful in understanding environmental situations and in telling the approach of danger, and sound-imitation words (sound-related onomatopoeia) are important expressions to inform such sounds in human communication, especially in Japanese language. In this paper, we design a method to recognize sound-imitation words (SIWs) for environmental sounds. Critical issues in recognizing SIW are how to divide an environmental sound into recognition units and how to resolve representation ambiguity of the sounds. To solve these problems, we designed three-stage procedure that transforms environmental sounds into sound-imitation words, and <I>phoneme group expressions</I> that can represent ambiguous sounds. The three-stage procedure is as follows: (1) a whole waveform is divided into some chunks, (2) the chunks are transformed into sound-imitation syllables by phoneme recognition, (3) a sound-imitation word is constructed from sound-imitation syllables according to the requirements of the Japanese language. Ambiguity problem is that an environmental sound is often recognized differently by different listeners even under the same situation. Phoneme group expressions are new phonemes for environmental sounds, and they can express multiple sound-imitation words by one word. We designed two sets of phoneme groups: ``a set of basic phoneme group'' and ``a set of articulation-based phoneme group'' to absorb the ambiguity. Based on subjective experiments, the set of basic phoneme groups proved more appropriate to represent environmental sounds than the articulation-based one or a set of normal Japaneses phonemes.
著者
奥乃 博 京田耕司 中臺 一博 北野 宏明
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)
巻号頁・発行日
vol.2000, no.23, pp.116-124, 2000-03-02

Beowulrクラスクラスタは,PCクラスタの論理構成法であり,コモディティハードウェアやソフトウェアによりPCクラスタが容易に構築できる.しかし,それらの組合せによってはうまく動かなかったり,あるいは,性能が全く出ないということがある.本稿では,Beowulfクラスクラスタのチューニングを(1)ネットワーク,(2)プロセッサ間通信ライブラリ(MPIやPVM),(3)応用プログラム,という3つのレベルで分けて,行うことを提案する.具体的には,NetPIPEというネットワーク測定用ツールを用いて,(1)と(2)をチューニングする.次に,線形代数でよく使われるLINPACKの一つScaLAPACKを応用プログラムとして利用し,(1)と(2)から得られたネットワーク特性を用いて,ScaLAPACKのチューニングを行う.とくに,小さな行列に分割することと,最適化された線形代数パッケージを使用することが,ScaLAPACKの性能向上に不可欠であることが判明した.これらの知見を利用することにより,Pentium-II 450 MHz,256 MByteメモリのノード32台で構成されるERATO-1に本手法を適用した結果,ハードウェアの不具合いが発見でき,また,LINPACKベンチマークで6.76GFlopsの性能が得られた.Beowulf-Class cluster is a logical organization of PC clusters composed of mass-market off-the-shelf hardware and software. The user may have problems that their implementation won't work well in hardware level or their implementation provides quite a poor performance. In this paper, we present a new method to tune and evaluation of the Beowulf-Class cluter by focusing on three levels: (1) network level, (2) message passing system level (e.g., MPI, PVM), and (3) application level. The first two performance is measured by NetPIPE developed by Ames Lab. ScaLAPACK (parallel version of LINPACK) is used as benchmarks for application programs, because it is one of the most common linear algebra subprograms and its evaluation is beneficial for numerical computation users. ScaLAPACK is tuned by using parameters determined by NetPIPE. ERATO-1 Beowulf-class cluster, 32 nodes of Pentium-II 450HHz processor with 256MByte of memory, is tuned by the proposed method. First, a network interface card installed in each ERATO-1 node is indentified as the cause of poor performance and finally ERATO-1 attained 6.76 GFlops with LINPACK benchmark.
著者
下岡 和也 河原 達也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.44, pp.81-88, 2002-05-23
参考文献数
12

講演音声のような話し言葉の書き起こしや音声認識結果には、話し言葉特有の表現が数多く含まれて二次利用しにくいため、文章として適した形態に整形する必要がある。本稿では、統計的機械翻訳の考え方に基づいて講演の書き起こしを自動的に整形された文章に変換する方法を提案する。本研究で扱う処理は、フィラーの削除、句点の挿入、助詞の挿入、書き言葉表現への変換、文体の統一である。これらの処理を統合的に行うようにビームサーチを導入した。以上の手法により、実際の講演の書き起こしを整形された文章に変換し、講演録編集者によって一次整形されたものを正解として、句点の挿入、助詞の挿入、文体の統一に関して定量的な評価を行った。Transcriptions and recognition results of lecture speech include many expressions peculiar to spoken language. Thus, it is necessary to transform them into document style for practical use of them. We apply the statistical approach used by machine translation to automatic transformation of the spoken language into document style sentences. We deal with deletion of the fillers, insertion of periods, insertion of particles, conversion to written word expression and unification of a text style. To apply these processings in an integrated manner, we introduce a beam search. The preliminary evaluation of the proposed method is presented using real lecture transcriptions and their archives.
著者
神田 直之 駒谷 和範 中野 幹生 中臺 一博 辻野 広司 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.55-60, 2006-02-04
被引用文献数
4

複数のドメインを扱う音声対話システムにおいて,対話の文脈や進行に関する特徴量を導入してより精度よくドメイン選択を行う手法を開発したので報告する.本稿ではドメイン選択問題を,応答すべきドメインが,(I)ひとつ前の応答を行ったドメイン,(II)音声認識結果に対する最尤のドメイン,(III)それ以外のいずれかのドメイン,のどれに該当するかを判別する問題と捉える.ドメイン選択の正解を与えた対話データから,対話の文脈や進行に関する特徴量を用いて上記を判別する決定木を学習することにより,ドメイン選択器を構成した.5ドメインのマルチドメイン音声対話システムを用いた10名の被験者による評価実験の結果,音声認識尤度に基づく従来のドメイン選択手法に比べ,ドメイン選択誤りが11.6%削減された.We have developed a robust domain selection method using dialogue history in multi-domain spoken dialogue systems. We define domain selection as classifying problem among (I) the domain in the previous turn, (II) the domain in which N-best speech recognition results can be accepted with the highest recognition score, (III) other domains. We constructed a classifier by decision tree learning with dialogue corpus. The experimental result using 10 subjects shows that our method could reduced 11.6% domain selection error, compared with a conventional method using speech recognition likelihoods only.
著者
藤原弘将 後藤 真孝 緒方 淳 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.37-44, 2006-08-07

本稿では,伴奏音を含む音楽音響信号と対応する歌詞の時間的な対応付け手法について述べる.クリーンな音声信号とその発話内容の時間的対応付けを推定をするViterbi アラインメント手法はこれまでも存在したが,歌声と同時に演奏される伴奏音の悪影響で市販 CD 中の歌声には適用できなかった.本稿では,この問題を解決するため,歌声の調波構造を抽出・再合成することで混合音中の歌声を分離する手法,歌声・非歌声状態を行き来する隠れマルコフモデル (HMM)を用いた歌声区間検出手法,音響モデルを分離歌声に適応させることで Viterbi アラインメントを適用する手法を提案する.日本語のポピュラー音楽を用いた評価実験を行い,本手法により10曲中8曲について十分な精度で音楽と歌詞の対応付けが出来ることを確かめた.This paper describes a method that can automatically synchronize between polyphonic musical audio signals and corresponding lyrics. Although there were methods that can synchronize between monophonic speech signals and corresponding text transcriptions by using Viterbi alignment techniques, they cannot be applied to vocals in CD recordings because accompaniment sounds often overlap with vocals. To align lyrics with such vocals, we therefore developed three methods: a method for segregating vocals from polyphonic sound mixtures by extracting and resynthesizing the vocal melody, a method for detecting vocal sections using a Hidden Markov Model (HMM) that transitions back and forth between vocal and non-vocal state, and a method for adapting a speech-recognizer phone model to segregated vocal signals. Experimental results for 10 Japanese popular-music songs showed that our system can synchronize between music and lyrics with satisfactory accuracy for 8 songs.