著者
伊藤亮介 駒谷 和範 河原 達也 奥乃 博
雑誌
情報処理学会研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2003, no.14(2002-SLP-045), pp.107-112, 2003-02-07

ロボットとの音声対話をより円滑にするためには,言語的情報だけでなく話者の心的状態感情を取り扱う必要がある.本研究では,親近感,喜び,困惑の感情を対象として,WOZ 方式によって収集された子供とロボットとのリアルな対話データを用いて,韻律的特徴に基づく分析・判別を行う.特に,対話であるという状況を考慮して,それらの特徴量の発話ごとの変化量や,発話間の時間間隔を利用する.これにより,事前学習を必要としないリアルタイムな判別を可能にする.判別にはSVM 及びC により学習した決定木を用い,困惑で,喜びで,親近感での判別精度を得た.この感情判別を導入した音声対話機能を実ロボットRobovie に実装し,動作の確認を行った.
著者
服部真之 駒谷和範 佐藤理史
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.517-518, 2013-03-06

ロボットに搭載されたセンサから得られる情報のみを使用するような音声インタラクションでは,音源定位誤りや音声認識誤りに起因する誤動作が生じやすい.ロボットに誤動作が生じるとインタラクションの進行が妨げられる.本研究では,ロボットの誤動作時の参加者の反応に着目し,その分析に基づいて誤動作の自動検出を行う.まず,ロボットと参加者のインタラクションを記録し,誤動作発生時の典型的な参加者の反応を分類する.次に,ロボットが顔を向けた直後や返答の直後などの,参加者の各反応が生じている区間に現れるシステムのログから,誤動作を自動検出する.評価実験によって,本研究で見出した典型的な参加者の反応を用いて,誤動作を自動検出できることを示した.
著者
吉井 和佳 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.82, pp.91-96, 2005-08-05

本稿では、認識誤りを含むドラム音の発音時刻列からドラムパターンを推定し、認識誤り補正を行う手法について述べる。本稿におけるドラムパターンとは、バスドラム音およびスネアドラム音の発音時刻列のペアで構成される周期的な時間構造のことを指す。まず、我々が提案したドラム音認識手法を音楽音響信号に適用してドラム音の発音時刻列を得る。次に、発音時刻列を短時間フーリエ解析しても止まる周期長に基づき、ドラムパターンを切り出す。ここで、同じドラムパターンは連続して反復されやすいという仮定をおき、各ドラムパターン区間における実際の発音時刻列を推定する。最後に、切り出されたドラムパターンと推定された発音時刻列との比較により、認識誤りの可能性が高い時刻を検出し、再検証を行う。ポピュラー音楽50曲を用いたドラム音認識実験で、補正手法により認識率が77.4% から80.7%に改善することを確認した。may include recognition errors and corrects them by using the drum patterns. In this paper, drum patterns are defined as periodic temporal structures which are pair of onset-time sequences of bass and snare drum sounds. First, we apply our drum sound recognition method to musical audio signals, and obtain onset-time sequences of drum sounds. Next, we calculate the period length of those sequences by applying short-time Fourier transform, and extract drum patterns from them. Under the assumption that the same drum patterns tend to be repeated, we estimate an actual onset-time sequences in duration of each drum pattern. Finally, by comparing each drum pattern with its corresponding estimated onset-time sequences, we detect time points where recognition errors may have been made, and verify those points. The experiments of drum sound recognition with 50 popular songs showed that our correction method improved the recognition accuracy from 77.4% to 80.7%.
著者
杉山 貴昭 駒谷 和範 佐藤 理史
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.29, no.1, pp.32-40, 2014-01-05 (Released:2014-01-07)
参考文献数
16
被引用文献数
2 1

We have tackled a novel problem of predicting when a user is likely to begin speaking to a humanoid robot. The generality of the prediction model should be examined to apply it to various users. We show in this paper that the following two empirical evaluations. First, our proposed model does not depend on the specific participants whose data were used in our previous experiment. Second, the model can handle variations caused by individuality and instruction. We collect a data set to which 25 human participants give labels, indicating whether or not they would be likely to begin speaking to the robot. We then train a new model with the collected data and verify its performance by cross validation and open tests. We also investigate relationship of how much each human participant felt possible to begin speaking with a model parameter and instruction given to them. This shows a possibility of our model to handle such variations.
著者
佐藤 理史 加納 隼人 西村 翔平 駒谷 和範
雑誌
研究報告自然言語処理(NL)
巻号頁・発行日
vol.2013-NL-212, no.5, pp.1-9, 2013-07-11

大学入試センター試験 『国語』 の現代文で出題される,いわゆる 「傍線部問題」 を解く方法を定式化し,実装した.実装した方法は,「評論」 の 「傍線部問題」 の半数を正しく解くことができた.
著者
西山 正紘 北原 鉄朗 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. MUS,[音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.69, pp.31-36, 2007-02-23
参考文献数
13
被引用文献数
8

本稿では,アクセント構造およびムードの一致に基づいて,音楽と映像の調和の度合い(調和度)を計算する枠組を提案する.一般に,音楽と映像の調和要因としては,時間的なアクセントの一致による時間的調和と,ムードの一致による意味的調和の2つが存在する.従来の研究では,それぞれの要因のみしか扱っておらず,両要因を統一的に扱った事例は存在しない.そこで本稿では,音楽と映像の調和度を,アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する.アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて,ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する.実映像作品を対象とし,本手法の有効性を実験により評価した.
著者
西山 正紘 北原 鉄朗 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2007, no.15(2007-MUS-069), pp.31-36, 2007-02-23

本稿では、アクセント構造およびムードの一致に基づいて、音楽と映像の調和の度合い(調和度)を計算する枠組を提案する。一般に、音楽と映像の調和要因としては、時間的なアクセントの一致による時間的調和と、ムードの一致による意味的調和の2つが存在する。従来の研究では、それぞれの要因のみしか扱っておらず、両要因を統一的に扱った事例は存在しない。そこで本稿では、音楽と映像の調和度を、アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する。アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて、ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する。実映像作品を対象とし、本手法の有効性を実験により評価した。
著者
翠 輝久 駒谷 和範 清田 陽司 河原 達也
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.88, no.3, pp.499-508, 2005-03-01
被引用文献数
11

テキストで記述された知識ベースを自然言語音声で検索するシステムのための効率的な確認手法を提案する.音声対話システムにおいては, 音声認識誤りや話し言葉特有の冗長性に対処する必要がある.構造化されたデータベースを検索するタスクではユーザ発話中のキーワードに着目した確認を行うことでこれらの問題に対処できるが, 一般的な文書を検索する際にはキーワードの明示的な定義ができないため, このようなアプローチを用いることは難しい.そこで本研究では, 文書情報検索における有用性の観点から, 音声認識結果中の確認を行うべき個所を同定するために, 検索整合度, 検索重要度の二つの統計的指標を導入する.これらの尺度を用いて, 検索に決定的な影響を与える個所は検索を実行する前に確認し, 結果として検索に影響を及ぼす個所は検索結果の違いに基づいて確認を行う戦略を提案する.この対話戦略をソフトウェアサポートを行うシステム「ダイアログナビ」のフロントエンドとして実装した.評価実験の結果, 単純に音声認識結果を用いる場合より検索成功率が向上し, また音声認識の信頼度を用いる確認戦略よりも効率的に確認が行うことができた.
著者
奥乃 博 尾形 哲也 駒谷 和範 高橋 徹 白松 俊 中臺 一博 北原 鉄朗 糸山 克寿 浅野 太 浅野 太
出版者
京都大学
雑誌
基盤研究(S)
巻号頁・発行日
2007

音環境理解の主要機能である混合音の音源定位・分離・認識技術を開発し,ロボット聴覚ソフトウエアHARKとして公開し,国内外で複数の講習会を実施した. HARKを応用し,複数話者同時発話を認識する聖徳太子ロボット,ユーザの割込発話を許容する対話処理などを開発し,その有効性を実証した.さらに,多重奏音楽演奏から書くパート演奏を聞き分ける技術,実時間楽譜追跡機能を開発し,人と共演をする音楽ロボットなどに応用した。
著者
奥乃 博 中臺 一博 駒谷 和範
出版者
京都大学
雑誌
特定領域研究
巻号頁・発行日
2003

ヒューマノイドと人間との柔軟なコミュニケーションのために,混合音を聞き分け理解する機能を設計することを目的としている.平成15年度は,前年度開発をした方向情報や話者情報などの複数のレベルで視覚と聴覚を統合したアクティブ方向通過型フィルタ(ADPF)の高性能化,及び,ADPFを使用した音源分離システムと音声認識システムのインタフェース化を行い,簡単な3話者同時発話認識を,複数のロボット上に実現した.また,日本ロボット学会に「ロボット聴覚」研究専門委員会を設立した.(1)アクティブ方向通過型フィルタ(ADPF)の散乱理論による高性能化:画像と音から得られる話者の方向情報を基に,特定の方向からの音を分離するADPFでは,2本のマイクロフォンで得られる入力音から求めた両耳間位相差と両耳間強度差を用いて方向情報を得ていた.聴覚エピポーラ幾何に加えて散乱理論により頭部音響伝達関数の近似精度を向上させた結果,30度以上の周辺領域で音源定位と音源分離性能を大幅に向上させることができた.さらに,2種類のヒューマノイドロボット,SIG2とReplieに実装し,本手法の一般性を確認した.(2)3話者同時発話認識(聖徳太子ロボットの予備実験):昨年5月に放映された「鉄腕アトムを作る」(NHK)では方向と話者に依存した音響モデルを使用し3話者同時発話認識を行っていた.ADFPで得られる分離音は,周波数成分での特徴量が欠け,時間成分でのデータも喪失しているので,単一の音響モデルで済ませるために,ミッシングフィーチャ理論に基づいた音声認識システムを開発し,演繹ミッシングマスクにより,分離音の認識精度が大幅に向上することを確認した.(3)音一般の認識と対話システムへの展開:音声を用いた柔軟な対話システム構築のために,音声認識誤りに確信度を導入し,不要な問い合わせを解消する方法を開発した.また,非音声認識のために,楽器音認識と擬音語認識にも取り組み,単音について認識技法を確立した.
著者
石原 一志 駒谷 和範 尾形 哲也 奥乃 博
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 = Transactions of the Japanese Society for Artificial Intelligence : AI (ISSN:13460714)
巻号頁・発行日
vol.20, pp.229-236, 2005-11-01
被引用文献数
5 2

Environmental sounds are very helpful in understanding environmental situations and in telling the approach of danger, and sound-imitation words (sound-related onomatopoeia) are important expressions to inform such sounds in human communication, especially in Japanese language. In this paper, we design a method to recognize sound-imitation words (SIWs) for environmental sounds. Critical issues in recognizing SIW are how to divide an environmental sound into recognition units and how to resolve representation ambiguity of the sounds. To solve these problems, we designed three-stage procedure that transforms environmental sounds into sound-imitation words, and <I>phoneme group expressions</I> that can represent ambiguous sounds. The three-stage procedure is as follows: (1) a whole waveform is divided into some chunks, (2) the chunks are transformed into sound-imitation syllables by phoneme recognition, (3) a sound-imitation word is constructed from sound-imitation syllables according to the requirements of the Japanese language. Ambiguity problem is that an environmental sound is often recognized differently by different listeners even under the same situation. Phoneme group expressions are new phonemes for environmental sounds, and they can express multiple sound-imitation words by one word. We designed two sets of phoneme groups: ``a set of basic phoneme group'' and ``a set of articulation-based phoneme group'' to absorb the ambiguity. Based on subjective experiments, the set of basic phoneme groups proved more appropriate to represent environmental sounds than the articulation-based one or a set of normal Japaneses phonemes.
著者
神田 直之 駒谷 和範 中野 幹生 中臺 一博 辻野 広司 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.55-60, 2006-02-04
被引用文献数
4

複数のドメインを扱う音声対話システムにおいて,対話の文脈や進行に関する特徴量を導入してより精度よくドメイン選択を行う手法を開発したので報告する.本稿ではドメイン選択問題を,応答すべきドメインが,(I)ひとつ前の応答を行ったドメイン,(II)音声認識結果に対する最尤のドメイン,(III)それ以外のいずれかのドメイン,のどれに該当するかを判別する問題と捉える.ドメイン選択の正解を与えた対話データから,対話の文脈や進行に関する特徴量を用いて上記を判別する決定木を学習することにより,ドメイン選択器を構成した.5ドメインのマルチドメイン音声対話システムを用いた10名の被験者による評価実験の結果,音声認識尤度に基づく従来のドメイン選択手法に比べ,ドメイン選択誤りが11.6%削減された.We have developed a robust domain selection method using dialogue history in multi-domain spoken dialogue systems. We define domain selection as classifying problem among (I) the domain in the previous turn, (II) the domain in which N-best speech recognition results can be accepted with the highest recognition score, (III) other domains. We constructed a classifier by decision tree learning with dialogue corpus. The experimental result using 10 subjects shows that our method could reduced 11.6% domain selection error, compared with a conventional method using speech recognition likelihoods only.
著者
伊藤亮介 駒谷 和範 河原 達也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.7, pp.2147-2154, 2002-07-15
被引用文献数
15

機器操作マニュアルの検索に音声対話インタフェースを適用することで,ユーザフレンドリなヘルプシステムを構築する.本システムでは,まずユーザに自由な発話による検索を許し,キーワード集合を基にマニュアルの項目とマッチングを行うが,この段階では多数の候補が得られる.そこで,機器操作マニュアルから抽出される知識と階層的な構造を利用して対話を行うことにより,ユーザの意図を詳細化し検索結果を絞り込む.効率的に絞り込む質問を生成するために,マニュアルのディレクトリ構造を利用し,3種類のコスト関数を定義した.ビデオデッキのマニュアルに関して14人の被験者に対して実験を行った結果,本対話戦略によってシステムからの質問回数は,単純に尤度の高い候補から確認発話を行う戦略に比べて71%に減少した.We present a user-friendly help system for electrical appliances with speech interface that makes queries to their manuals.Users can make queries by unconstrained speech, from which keywords are extracted and matched to the items in the manual.As a result, so many items are usually obtained.Thus, we introduce an effective dialogue strategy which narrows down the items using a tree structure extracted from the manual.We present three cost functions that minimize the number of dialogue turns.We have evaluated the system performance with 14 subjects on VTR manual task.The number of average dialogue turns is reduced to 71% using our strategy compared with a conventional method that makes confirmation in turn according to the matching likelihood.
著者
藤原弘将 後藤 真孝 緒方 淳 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.37-44, 2006-08-07

本稿では,伴奏音を含む音楽音響信号と対応する歌詞の時間的な対応付け手法について述べる.クリーンな音声信号とその発話内容の時間的対応付けを推定をするViterbi アラインメント手法はこれまでも存在したが,歌声と同時に演奏される伴奏音の悪影響で市販 CD 中の歌声には適用できなかった.本稿では,この問題を解決するため,歌声の調波構造を抽出・再合成することで混合音中の歌声を分離する手法,歌声・非歌声状態を行き来する隠れマルコフモデル (HMM)を用いた歌声区間検出手法,音響モデルを分離歌声に適応させることで Viterbi アラインメントを適用する手法を提案する.日本語のポピュラー音楽を用いた評価実験を行い,本手法により10曲中8曲について十分な精度で音楽と歌詞の対応付けが出来ることを確かめた.This paper describes a method that can automatically synchronize between polyphonic musical audio signals and corresponding lyrics. Although there were methods that can synchronize between monophonic speech signals and corresponding text transcriptions by using Viterbi alignment techniques, they cannot be applied to vocals in CD recordings because accompaniment sounds often overlap with vocals. To align lyrics with such vocals, we therefore developed three methods: a method for segregating vocals from polyphonic sound mixtures by extracting and resynthesizing the vocal melody, a method for detecting vocal sections using a Hidden Markov Model (HMM) that transitions back and forth between vocal and non-vocal state, and a method for adapting a speech-recognizer phone model to segregated vocal signals. Experimental results for 10 Japanese popular-music songs showed that our system can synchronize between music and lyrics with satisfactory accuracy for 8 songs.
著者
糸山克寿 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告エンタテインメントコンピューティング(EC) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.37, pp.81-88, 2007-05-11

CDなどの複雑な多重奏音楽音響信号中の調波構造を持つ楽器音と持たない楽器音を同時に分離するためのモデルの作成と,楽譜情報を事前情報として与えた場合の制約付きモデルパラメータ推定手法について述べる.調波構造の有無によって楽器音の性質は大きく異なるため,従来の手法ではこれらの音を排他的に扱うことしかできなかった.本稿では,調波構造と非調波のそれぞれを表現する2つのモデルを統合した新たな重み付き混合モデルにより,両者の統合的手法を開発した.モデルのパラメータは最大事後確率推定に基づくEMアルゴリズムを用いて推定する.さらに,モデルの過学習を防ぎ同一楽器内のパラメータ一貫性を維持するための制約条件も同時に用いる.ポピュラー音楽のSMFを用いた評価実験で,本手法によりSNRが1.5 dB向上することを確認した.This paper describes a sound source separation method for polyphonic sound mixtures of music including both harmonic and inharmonic sounds, and constrained parameter estimation using standard MIDI files as prior information. The difficulties in dealing with both types of sound together have not been addressed in most previous methods that have focused on either of the two types separately, because the properties of these sounds are quite different. We therefore developed an integrated weighted-mixture model consisting of both harmonic-structure and inharmonic tone models. On the basis of the MAP estimation using the EM algorithm, we estimated all model parameters of this integrated model under several original constraints for preventing over-training and maintaining intra-instrument consistency. We confirmed that the integrated model increased the SNR by 1.5 dB.