著者
石原 一志 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.20, no.3, pp.229-236, 2005 (Released:2005-03-23)
参考文献数
13
被引用文献数
2 2

Environmental sounds are very helpful in understanding environmental situations and in telling the approach of danger, and sound-imitation words (sound-related onomatopoeia) are important expressions to inform such sounds in human communication, especially in Japanese language. In this paper, we design a method to recognize sound-imitation words (SIWs) for environmental sounds. Critical issues in recognizing SIW are how to divide an environmental sound into recognition units and how to resolve representation ambiguity of the sounds. To solve these problems, we designed three-stage procedure that transforms environmental sounds into sound-imitation words, and phoneme group expressions that can represent ambiguous sounds. The three-stage procedure is as follows: (1) a whole waveform is divided into some chunks, (2) the chunks are transformed into sound-imitation syllables by phoneme recognition, (3) a sound-imitation word is constructed from sound-imitation syllables according to the requirements of the Japanese language. Ambiguity problem is that an environmental sound is often recognized differently by different listeners even under the same situation. Phoneme group expressions are new phonemes for environmental sounds, and they can express multiple sound-imitation words by one word. We designed two sets of phoneme groups: ``a set of basic phoneme group'' and ``a set of articulation-based phoneme group'' to absorb the ambiguity. Based on subjective experiments, the set of basic phoneme groups proved more appropriate to represent environmental sounds than the articulation-based one or a set of normal Japaneses phonemes.
著者
石 晶 李 志豪 本吉 俊之 大西 直 森 裕紀 尾形 哲也
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第33回全国大会(2019)
巻号頁・発行日
pp.1L2J1101, 2019 (Released:2019-06-01)

深層学習を用いてサブタスクを学習することにより,自動運転におけるメインタスクの性能を上昇させることができる.Li et al. 2018の研究では,周囲の認識を担うPerception Module(Semantic Segmentation, Depth情報を抽出)と,運転操作を行うDriving Moduleという2つのモジュールを用いたマルチタスク学習手法を提案し,未知の環境での汎化性能を改善することを示した.しかし,メインタスクに対するサブタスクの理論的な設計は無い.本研究では,Li et al. 2018の研究をもとに自動運転における複数のサブタスクの組み合わせによる運転行動の生成結果を比較する実験を行なった.その結果,Semantic SegmentationのみをPerception Moduleが学習する際に汎化性能が最も高くなった.
著者
北原 鉄朗 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日
vol.89, no.12, pp.2721-2733, 2006-12-01
参考文献数
25
被引用文献数
2

本論文では,多重奏に対する音源同定において不可避な課題である「音の重なりによる特徴変動」について新たな解決法を提案する.多重奏では複数の楽器が同時に発音するため,各々の周波数成分が重なって干渉し,音響的特徴が変動する.本研究では,混合音から抽出した学習データに対して,各特徴量のクラス内分散・クラス間分散比を求めることで,周波数成分の重なりの影響の大きさを定量的に評価する.そして,線形判別分析を用いることで,これを最小化するように特徴量を重み付けした新たな特徴量軸を生成する.これにより,周波数成分の重なりの影響をできるだけ小さくした特徴空間が得られる.更に,音楽的文脈を利用することで音源同定の更なる高精度化を図る.実楽器音データベースから作成した二重奏〜四重奏の音響信号を用いた実験により,二重奏では50.9%から84.1%へ,三重奏では46.1%から77.6%へ,四重奏では43.1%から72.3%へ認識率の改善を得,本手法の有効性を確認した.
著者
村田 真悟 山下 祐一 有江 浩明 尾形 哲也 谷 淳 菅野 重樹
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第28回全国大会(2014)
巻号頁・発行日
pp.2K4OS04a3, 2014 (Released:2018-07-30)

人間は知覚経験を通して生じた現象の解釈を行い,受動的適応・能動的適応という二つの対立した戦略を動的に選択していると考えられる.我々は,この選択の実現に「予測精度の予測」が重要であると考え,それが実現可能な再帰結合神経回路モデルを提案する.提案モデルをロボットに実装し,適応行動の生成学習実験を行った結果,受動的・能動的な行動を実現する二つの神経メカニズムが同一の神経回路に自己組織化された.
著者
椹木 哲夫 土屋 和雄 門内 輝行 冨田 直秀 横小路 泰義 尾形 哲也 青柳 富誌生 水山 元 中西 弘明 堀口 由貴男 青井 伸也 谷口 忠大
出版者
京都大学
雑誌
学術創成研究費
巻号頁・発行日
2007

複雑なシステムの中におかれたヒトや生体は,自らを取り巻くところの環境や社会を能動的に意味づけ,価値づけ,自らの棲む世界として秩序化していくことができる.本研究課題では,このような自律的主体の「多様性の生成と選択」の機構を「記号過程」に求め,記号の生成・利用のダイナミズムの観点から,生体細胞から環境適応機械(ロボット),社会組織に亘る様々なレベルにおける適応システムの同型性を見いだし,個々のシステム要素が外部・内部の物理的環境との相互作用を介して機能が形成される一般的過程について追究した. 5カ年の成果により,目的をもって生きる存在としての自律的な主体(人,ロボット,細胞)が, 他者主体を含む環境との相互作用を通して,意味の世界を創出して伝達する仕組み(記号過程)を解明し,システムが人を育て,人がシステムを育てる相互主導性を担保できるシステムの設計論を確立することができた。
著者
濱 翔平 平井 諒 高橋 城志 山田 浩貴 尾形 哲也 菅野 重樹 金 天海
雑誌
第78回全国大会講演論文集
巻号頁・発行日
vol.2016, no.1, pp.367-368, 2016-03-10

力学系学習木により効率的な動作学習法を確立することを目的として,力学系学習木の持つ階層性を活用した入力ベクトル決定法を提案する.実験では,力学系学習木に柔軟ロボットアームの軌道学習をさせる際に,手先座標に対する影響度の大きさを考慮して入力ベクトルを構成することで,影響度を考慮しない学習法よりも高速に学習できることが分かった.
著者
吉井 和佳 後藤 真孝 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.82, pp.91-96, 2005-08-05

本稿では、認識誤りを含むドラム音の発音時刻列からドラムパターンを推定し、認識誤り補正を行う手法について述べる。本稿におけるドラムパターンとは、バスドラム音およびスネアドラム音の発音時刻列のペアで構成される周期的な時間構造のことを指す。まず、我々が提案したドラム音認識手法を音楽音響信号に適用してドラム音の発音時刻列を得る。次に、発音時刻列を短時間フーリエ解析しても止まる周期長に基づき、ドラムパターンを切り出す。ここで、同じドラムパターンは連続して反復されやすいという仮定をおき、各ドラムパターン区間における実際の発音時刻列を推定する。最後に、切り出されたドラムパターンと推定された発音時刻列との比較により、認識誤りの可能性が高い時刻を検出し、再検証を行う。ポピュラー音楽50曲を用いたドラム音認識実験で、補正手法により認識率が77.4% から80.7%に改善することを確認した。may include recognition errors and corrects them by using the drum patterns. In this paper, drum patterns are defined as periodic temporal structures which are pair of onset-time sequences of bass and snare drum sounds. First, we apply our drum sound recognition method to musical audio signals, and obtain onset-time sequences of drum sounds. Next, we calculate the period length of those sequences by applying short-time Fourier transform, and extract drum patterns from them. Under the assumption that the same drum patterns tend to be repeated, we estimate an actual onset-time sequences in duration of each drum pattern. Finally, by comparing each drum pattern with its corresponding estimated onset-time sequences, we detect time points where recognition errors may have been made, and verify those points. The experiments of drum sound recognition with 50 popular songs showed that our correction method improved the recognition accuracy from 77.4% to 80.7%.
著者
リム アンジェリカ 水本 武志 大塚琢馬 古谷 ルイ賢造カイエ 尾形 哲也 奥乃 博
出版者
情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.52, no.12, pp.3599-3610, 2011-12-15

聞く,見るは,共演者が仲間の演奏者とテンポを合わせて演奏するために重要なスキルである.画像キュー(cue,合図)を検知し,他の演奏者に耳を傾けることによって,演奏者はいっせいに演奏を始め,テンポの緩急の合図に合わせ,さらに,いっせいに演奏を終えることができる.本稿では,人間のフルート奏者がアンサンブルリーダを担い,ロボットは伴奏者として人間の演奏に追従する問題を扱う.まず,フルート奏者の3種類のジェスチャを提案し,画像キューによる認識,音響ビートと画像キューとの統合によるテンポ推定について述べ,テルミン演奏共演ロボットのジェスチャ認識について報告する.初期実験で3タイプの画像キューが83%以上で検出できること,また,画像キューと音響ビート検出とを組み合わせることにより,テンポ検出が0.5秒以内に行えればビート追跡が安定することが分かった.この結果,フルート奏者の指示に合わせて共演者音楽ロボットがテルミンを演奏し,歌を歌うことが可能となった.Listening and watching are important skills for co-players to play in time with fellow musicians. By detecting visual cues and listening to other players, musicians can start together, stop together, and follow a leader's visual cues of changes in tempo. In this paper, we formalize three visual cues for the case of flutists, and describe how our thereminist robot co-player system detects them. Initial experiments show over 83% detection rates for our 3 types of visual cues. Additionally, by coupling visual cues and acoustic beat detection, the robot can extract a tempo in half a second. The resulting robot co-player can play theremin and sing a song with the lead of a human flutist.
著者
野田 邦昭 有江 浩明 菅 佑樹 尾形 哲也
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.27, 2013

恒等写像を学習する多段型神経回路モデルを,ロボットによる複数の物体操作行動から得られた視覚運動時系列の記憶学習に適用した.これにより,行動パターンに応じた内部表現が学習器によって自己組織化され,獲得された内部表現を用いた行動認識が実現した.また,獲得された記憶を用いて時系列予測やクロスモーダル連想を行い,環境変化に応じて動的に行動選択したり,運動情報から視覚情報を復元したりすることが可能になった.
著者
西山 正紘 北原 鉄朗 駒谷 和範 尾形 哲也 奥乃 博
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. MUS,[音楽情報科学] (ISSN:09196072)
巻号頁・発行日
vol.69, pp.31-36, 2007-02-23
参考文献数
13
被引用文献数
8

本稿では,アクセント構造およびムードの一致に基づいて,音楽と映像の調和の度合い(調和度)を計算する枠組を提案する.一般に,音楽と映像の調和要因としては,時間的なアクセントの一致による時間的調和と,ムードの一致による意味的調和の2つが存在する.従来の研究では,それぞれの要因のみしか扱っておらず,両要因を統一的に扱った事例は存在しない.そこで本稿では,音楽と映像の調和度を,アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する.アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて,ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する.実映像作品を対象とし,本手法の有効性を実験により評価した.
著者
西山 正紘 北原 鉄朗 駒谷 和範 尾形 哲也 奥乃 博
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2007, no.15(2007-MUS-069), pp.31-36, 2007-02-23

本稿では、アクセント構造およびムードの一致に基づいて、音楽と映像の調和の度合い(調和度)を計算する枠組を提案する。一般に、音楽と映像の調和要因としては、時間的なアクセントの一致による時間的調和と、ムードの一致による意味的調和の2つが存在する。従来の研究では、それぞれの要因のみしか扱っておらず、両要因を統一的に扱った事例は存在しない。そこで本稿では、音楽と映像の調和度を、アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する。アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて、ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する。実映像作品を対象とし、本手法の有効性を実験により評価した。