著者
石 晶 李 志豪 本吉 俊之 大西 直 森 裕紀 尾形 哲也
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1L2J1101, 2019 (Released:2019-06-01)

深層学習を用いてサブタスクを学習することにより,自動運転におけるメインタスクの性能を上昇させることができる.Li et al. 2018の研究では,周囲の認識を担うPerception Module(Semantic Segmentation, Depth情報を抽出)と,運転操作を行うDriving Moduleという2つのモジュールを用いたマルチタスク学習手法を提案し,未知の環境での汎化性能を改善することを示した.しかし,メインタスクに対するサブタスクの理論的な設計は無い.本研究では,Li et al. 2018の研究をもとに自動運転における複数のサブタスクの組み合わせによる運転行動の生成結果を比較する実験を行なった.その結果,Semantic SegmentationのみをPerception Moduleが学習する際に汎化性能が最も高くなった.
著者
北原 鉄朗 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2721-2733, 2006-12-01
参考文献数
25
被引用文献数
2

本論文では,多重奏に対する音源同定において不可避な課題である「音の重なりによる特徴変動」について新たな解決法を提案する.多重奏では複数の楽器が同時に発音するため,各々の周波数成分が重なって干渉し,音響的特徴が変動する.本研究では,混合音から抽出した学習データに対して,各特徴量のクラス内分散・クラス間分散比を求めることで,周波数成分の重なりの影響の大きさを定量的に評価する.そして,線形判別分析を用いることで,これを最小化するように特徴量を重み付けした新たな特徴量軸を生成する.これにより,周波数成分の重なりの影響をできるだけ小さくした特徴空間が得られる.更に,音楽的文脈を利用することで音源同定の更なる高精度化を図る.実楽器音データベースから作成した二重奏〜四重奏の音響信号を用いた実験により,二重奏では50.9%から84.1%へ,三重奏では46.1%から77.6%へ,四重奏では43.1%から72.3%へ認識率の改善を得,本手法の有効性を確認した.
著者
村田 真悟 山下 祐一 有江 浩明 尾形 哲也 谷 淳 菅野 重樹
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第28回全国大会(2014)
巻号頁・発行日
pp.2K4OS04a3, 2014 (Released:2018-07-30)

人間は知覚経験を通して生じた現象の解釈を行い,受動的適応・能動的適応という二つの対立した戦略を動的に選択していると考えられる.我々は,この選択の実現に「予測精度の予測」が重要であると考え,それが実現可能な再帰結合神経回路モデルを提案する.提案モデルをロボットに実装し,適応行動の生成学習実験を行った結果,受動的・能動的な行動を実現する二つの神経メカニズムが同一の神経回路に自己組織化された.
著者
椹木 哲夫 土屋 和雄 門内 輝行 冨田 直秀 横小路 泰義 尾形 哲也 青柳 富誌生 水山 元 中西 弘明 堀口 由貴男 青井 伸也 谷口 忠大
出版者
京都大学
雑誌
学術創成研究費
巻号頁・発行日
2007

複雑なシステムの中におかれたヒトや生体は,自らを取り巻くところの環境や社会を能動的に意味づけ,価値づけ,自らの棲む世界として秩序化していくことができる.本研究課題では,このような自律的主体の「多様性の生成と選択」の機構を「記号過程」に求め,記号の生成・利用のダイナミズムの観点から,生体細胞から環境適応機械(ロボット),社会組織に亘る様々なレベルにおける適応システムの同型性を見いだし,個々のシステム要素が外部・内部の物理的環境との相互作用を介して機能が形成される一般的過程について追究した. 5カ年の成果により,目的をもって生きる存在としての自律的な主体(人,ロボット,細胞)が, 他者主体を含む環境との相互作用を通して,意味の世界を創出して伝達する仕組み(記号過程)を解明し,システムが人を育て,人がシステムを育てる相互主導性を担保できるシステムの設計論を確立することができた。
著者
濱 翔平 平井 諒 高橋 城志 山田 浩貴 尾形 哲也 菅野 重樹 金 天海
雑誌
第78回全国大会講演論文集
巻号頁・発行日
vol.2016, no.1, pp.367-368, 2016-03-10

力学系学習木により効率的な動作学習法を確立することを目的として,力学系学習木の持つ階層性を活用した入力ベクトル決定法を提案する.実験では,力学系学習木に柔軟ロボットアームの軌道学習をさせる際に,手先座標に対する影響度の大きさを考慮して入力ベクトルを構成することで,影響度を考慮しない学習法よりも高速に学習できることが分かった.
著者
吉井 和佳 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.82, pp.91-96, 2005-08-05

本稿では、認識誤りを含むドラム音の発音時刻列からドラムパターンを推定し、認識誤り補正を行う手法について述べる。本稿におけるドラムパターンとは、バスドラム音およびスネアドラム音の発音時刻列のペアで構成される周期的な時間構造のことを指す。まず、我々が提案したドラム音認識手法を音楽音響信号に適用してドラム音の発音時刻列を得る。次に、発音時刻列を短時間フーリエ解析しても止まる周期長に基づき、ドラムパターンを切り出す。ここで、同じドラムパターンは連続して反復されやすいという仮定をおき、各ドラムパターン区間における実際の発音時刻列を推定する。最後に、切り出されたドラムパターンと推定された発音時刻列との比較により、認識誤りの可能性が高い時刻を検出し、再検証を行う。ポピュラー音楽50曲を用いたドラム音認識実験で、補正手法により認識率が77.4% から80.7%に改善することを確認した。may include recognition errors and corrects them by using the drum patterns. In this paper, drum patterns are defined as periodic temporal structures which are pair of onset-time sequences of bass and snare drum sounds. First, we apply our drum sound recognition method to musical audio signals, and obtain onset-time sequences of drum sounds. Next, we calculate the period length of those sequences by applying short-time Fourier transform, and extract drum patterns from them. Under the assumption that the same drum patterns tend to be repeated, we estimate an actual onset-time sequences in duration of each drum pattern. Finally, by comparing each drum pattern with its corresponding estimated onset-time sequences, we detect time points where recognition errors may have been made, and verify those points. The experiments of drum sound recognition with 50 popular songs showed that our correction method improved the recognition accuracy from 77.4% to 80.7%.
著者
リム アンジェリカ 水本 武志 大塚琢馬 古谷 ルイ賢造カイエ 尾形 哲也 奥乃 博
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3599-3610, 2011-12-15

聞く,見るは,共演者が仲間の演奏者とテンポを合わせて演奏するために重要なスキルである.画像キュー(cue,合図)を検知し,他の演奏者に耳を傾けることによって,演奏者はいっせいに演奏を始め,テンポの緩急の合図に合わせ,さらに,いっせいに演奏を終えることができる.本稿では,人間のフルート奏者がアンサンブルリーダを担い,ロボットは伴奏者として人間の演奏に追従する問題を扱う.まず,フルート奏者の3種類のジェスチャを提案し,画像キューによる認識,音響ビートと画像キューとの統合によるテンポ推定について述べ,テルミン演奏共演ロボットのジェスチャ認識について報告する.初期実験で3タイプの画像キューが83%以上で検出できること,また,画像キューと音響ビート検出とを組み合わせることにより,テンポ検出が0.5秒以内に行えればビート追跡が安定することが分かった.この結果,フルート奏者の指示に合わせて共演者音楽ロボットがテルミンを演奏し,歌を歌うことが可能となった.Listening and watching are important skills for co-players to play in time with fellow musicians. By detecting visual cues and listening to other players, musicians can start together, stop together, and follow a leader's visual cues of changes in tempo. In this paper, we formalize three visual cues for the case of flutists, and describe how our thereminist robot co-player system detects them. Initial experiments show over 83% detection rates for our 3 types of visual cues. Additionally, by coupling visual cues and acoustic beat detection, the robot can extract a tempo in half a second. The resulting robot co-player can play theremin and sing a song with the lead of a human flutist.
著者
野田 邦昭 有江 浩明 菅 佑樹 尾形 哲也
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

恒等写像を学習する多段型神経回路モデルを,ロボットによる複数の物体操作行動から得られた視覚運動時系列の記憶学習に適用した.これにより,行動パターンに応じた内部表現が学習器によって自己組織化され,獲得された内部表現を用いた行動認識が実現した.また,獲得された記憶を用いて時系列予測やクロスモーダル連想を行い,環境変化に応じて動的に行動選択したり,運動情報から視覚情報を復元したりすることが可能になった.
著者
西山 正紘 北原 鉄朗 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. MUS,[音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.69, pp.31-36, 2007-02-23
参考文献数
13
被引用文献数
8

本稿では,アクセント構造およびムードの一致に基づいて,音楽と映像の調和の度合い(調和度)を計算する枠組を提案する.一般に,音楽と映像の調和要因としては,時間的なアクセントの一致による時間的調和と,ムードの一致による意味的調和の2つが存在する.従来の研究では,それぞれの要因のみしか扱っておらず,両要因を統一的に扱った事例は存在しない.そこで本稿では,音楽と映像の調和度を,アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する.アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて,ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する.実映像作品を対象とし,本手法の有効性を実験により評価した.
著者
西山 正紘 北原 鉄朗 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2007, no.15(2007-MUS-069), pp.31-36, 2007-02-23

本稿では、アクセント構造およびムードの一致に基づいて、音楽と映像の調和の度合い(調和度)を計算する枠組を提案する。一般に、音楽と映像の調和要因としては、時間的なアクセントの一致による時間的調和と、ムードの一致による意味的調和の2つが存在する。従来の研究では、それぞれの要因のみしか扱っておらず、両要因を統一的に扱った事例は存在しない。そこで本稿では、音楽と映像の調和度を、アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する。アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて、ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する。実映像作品を対象とし、本手法の有効性を実験により評価した。
著者
奥乃 博 尾形 哲也 駒谷 和範 高橋 徹 白松 俊 中臺 一博 北原 鉄朗 糸山 克寿 浅野 太 浅野 太
出版者
京都大学
雑誌
基盤研究(S)
巻号頁・発行日
2007

音環境理解の主要機能である混合音の音源定位・分離・認識技術を開発し,ロボット聴覚ソフトウエアHARKとして公開し,国内外で複数の講習会を実施した. HARKを応用し,複数話者同時発話を認識する聖徳太子ロボット,ユーザの割込発話を許容する対話処理などを開発し,その有効性を実証した.さらに,多重奏音楽演奏から書くパート演奏を聞き分ける技術,実時間楽譜追跡機能を開発し,人と共演をする音楽ロボットなどに応用した。
著者
石原 一志 駒谷 和範 尾形 哲也 奥乃 博
出版者
The Japanese Society for Artificial Intelligence
雑誌
人工知能学会論文誌 = Transactions of the Japanese Society for Artificial Intelligence : AI (ISSN:13460714)
巻号頁・発行日
vol.20, pp.229-236, 2005-11-01
被引用文献数
5 2

Environmental sounds are very helpful in understanding environmental situations and in telling the approach of danger, and sound-imitation words (sound-related onomatopoeia) are important expressions to inform such sounds in human communication, especially in Japanese language. In this paper, we design a method to recognize sound-imitation words (SIWs) for environmental sounds. Critical issues in recognizing SIW are how to divide an environmental sound into recognition units and how to resolve representation ambiguity of the sounds. To solve these problems, we designed three-stage procedure that transforms environmental sounds into sound-imitation words, and <I>phoneme group expressions</I> that can represent ambiguous sounds. The three-stage procedure is as follows: (1) a whole waveform is divided into some chunks, (2) the chunks are transformed into sound-imitation syllables by phoneme recognition, (3) a sound-imitation word is constructed from sound-imitation syllables according to the requirements of the Japanese language. Ambiguity problem is that an environmental sound is often recognized differently by different listeners even under the same situation. Phoneme group expressions are new phonemes for environmental sounds, and they can express multiple sound-imitation words by one word. We designed two sets of phoneme groups: ``a set of basic phoneme group'' and ``a set of articulation-based phoneme group'' to absorb the ambiguity. Based on subjective experiments, the set of basic phoneme groups proved more appropriate to represent environmental sounds than the articulation-based one or a set of normal Japaneses phonemes.
著者
神田 直之 駒谷 和範 中野 幹生 中臺 一博 辻野 広司 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.12, pp.55-60, 2006-02-04
被引用文献数
4

複数のドメインを扱う音声対話システムにおいて,対話の文脈や進行に関する特徴量を導入してより精度よくドメイン選択を行う手法を開発したので報告する.本稿ではドメイン選択問題を,応答すべきドメインが,(I)ひとつ前の応答を行ったドメイン,(II)音声認識結果に対する最尤のドメイン,(III)それ以外のいずれかのドメイン,のどれに該当するかを判別する問題と捉える.ドメイン選択の正解を与えた対話データから,対話の文脈や進行に関する特徴量を用いて上記を判別する決定木を学習することにより,ドメイン選択器を構成した.5ドメインのマルチドメイン音声対話システムを用いた10名の被験者による評価実験の結果,音声認識尤度に基づく従来のドメイン選択手法に比べ,ドメイン選択誤りが11.6%削減された.We have developed a robust domain selection method using dialogue history in multi-domain spoken dialogue systems. We define domain selection as classifying problem among (I) the domain in the previous turn, (II) the domain in which N-best speech recognition results can be accepted with the highest recognition score, (III) other domains. We constructed a classifier by decision tree learning with dialogue corpus. The experimental result using 10 subjects shows that our method could reduced 11.6% domain selection error, compared with a conventional method using speech recognition likelihoods only.
著者
藤原弘将 後藤 真孝 緒方 淳 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.90, pp.37-44, 2006-08-07

本稿では,伴奏音を含む音楽音響信号と対応する歌詞の時間的な対応付け手法について述べる.クリーンな音声信号とその発話内容の時間的対応付けを推定をするViterbi アラインメント手法はこれまでも存在したが,歌声と同時に演奏される伴奏音の悪影響で市販 CD 中の歌声には適用できなかった.本稿では,この問題を解決するため,歌声の調波構造を抽出・再合成することで混合音中の歌声を分離する手法,歌声・非歌声状態を行き来する隠れマルコフモデル (HMM)を用いた歌声区間検出手法,音響モデルを分離歌声に適応させることで Viterbi アラインメントを適用する手法を提案する.日本語のポピュラー音楽を用いた評価実験を行い,本手法により10曲中8曲について十分な精度で音楽と歌詞の対応付けが出来ることを確かめた.This paper describes a method that can automatically synchronize between polyphonic musical audio signals and corresponding lyrics. Although there were methods that can synchronize between monophonic speech signals and corresponding text transcriptions by using Viterbi alignment techniques, they cannot be applied to vocals in CD recordings because accompaniment sounds often overlap with vocals. To align lyrics with such vocals, we therefore developed three methods: a method for segregating vocals from polyphonic sound mixtures by extracting and resynthesizing the vocal melody, a method for detecting vocal sections using a Hidden Markov Model (HMM) that transitions back and forth between vocal and non-vocal state, and a method for adapting a speech-recognizer phone model to segregated vocal signals. Experimental results for 10 Japanese popular-music songs showed that our system can synchronize between music and lyrics with satisfactory accuracy for 8 songs.