文献一覧: 尾形哲也 (著者)

1 0 0 0 OA End-to-End自動運転モデル改善のための画像認識サブタスクの設計と評価

著者: 石晶李志豪本吉俊之大西直森裕紀尾形哲也
出版者: 一般社団法人人工知能学会
雑誌: 人工知能学会全国大会論文集第33回全国大会(2019)
巻号頁・発行日: pp.1L2J1101, 2019 (Released:2019-06-01)

深層学習を用いてサブタスクを学習することにより,自動運転におけるメインタスクの性能を上昇させることができる.Li et al. 2018の研究では,周囲の認識を担うPerception Module(Semantic Segmentation, Depth情報を抽出)と,運転操作を行うDriving Moduleという2つのモジュールを用いたマルチタスク学習手法を提案し,未知の環境での汎化性能を改善することを示した.しかし,メインタスクに対するサブタスクの理論的な設計は無い.本研究では,Li et al. 2018の研究をもとに自動運転における複数のサブタスクの組み合わせによる運転行動の生成結果を比較する実験を行なった.その結果,Semantic SegmentationのみをPerception Moduleが学習する際に汎化性能が最も高くなった.

2020-07-18 21:26:00
1 + 0 Twitter

1 0 0 0 多重奏を対象とした音源同定 : 混合音テンプレートを用いた音の重なりに頑健な特徴量への重み付け及び音楽的文脈の利用

著者: 北原鉄朗後藤真孝駒谷和範尾形哲也奥乃博
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) (ISSN:18804535)
巻号頁・発行日: vol.89, no.12, pp.2721-2733, 2006-12-01
参考文献数: 25
被引用文献数: 2

本論文では,多重奏に対する音源同定において不可避な課題である「音の重なりによる特徴変動」について新たな解決法を提案する.多重奏では複数の楽器が同時に発音するため,各々の周波数成分が重なって干渉し,音響的特徴が変動する.本研究では,混合音から抽出した学習データに対して,各特徴量のクラス内分散・クラス間分散比を求めることで,周波数成分の重なりの影響の大きさを定量的に評価する.そして,線形判別分析を用いることで,これを最小化するように特徴量を重み付けした新たな特徴量軸を生成する.これにより,周波数成分の重なりの影響をできるだけ小さくした特徴空間が得られる.更に,音楽的文脈を利用することで音源同定の更なる高精度化を図る.実楽器音データベースから作成した二重奏〜四重奏の音響信号を用いた実験により,二重奏では50.9%から84.1%へ,三重奏では46.1%から77.6%へ,四重奏では43.1%から72.3%へ認識率の改善を得,本手法の有効性を確認した.

2019-04-05 11:44:57
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110007380407

1 0 0 0 OA 予測精度の予測に基づいた能動的・受動的な適応行動の生成学習

著者: 村田真悟山下祐一有江浩明尾形哲也谷淳菅野重樹
出版者: 一般社団法人人工知能学会
雑誌: 人工知能学会全国大会論文集第28回全国大会(2014)
巻号頁・発行日: pp.2K4OS04a3, 2014 (Released:2018-07-30)

人間は知覚経験を通して生じた現象の解釈を行い,受動的適応・能動的適応という二つの対立した戦略を動的に選択していると考えられる.我々は,この選択の実現に「予測精度の予測」が重要であると考え,それが実現可能な再帰結合神経回路モデルを提案する.提案モデルをロボットに実装し,適応行動の生成学習実験を行った結果,受動的・能動的な行動を実現する二つの神経メカニズムが同一の神経回路に自己組織化された.

2019-01-24 19:12:37
1 + 0 Twitter

1 0 0 0 OA 記号過程を内包した動的適応システムの設計論

著者: 椹木哲夫土屋和雄門内輝行冨田直秀横小路泰義尾形哲也青柳富誌生水山元中西弘明堀口由貴男青井伸也谷口忠大
出版者: 京都大学
雑誌: 学術創成研究費
巻号頁・発行日: 2007

複雑なシステムの中におかれたヒトや生体は,自らを取り巻くところの環境や社会を能動的に意味づけ,価値づけ,自らの棲む世界として秩序化していくことができる.本研究課題では,このような自律的主体の「多様性の生成と選択」の機構を「記号過程」に求め,記号の生成・利用のダイナミズムの観点から,生体細胞から環境適応機械(ロボット),社会組織に亘る様々なレベルにおける適応システムの同型性を見いだし,個々のシステム要素が外部・内部の物理的環境との相互作用を介して機能が形成される一般的過程について追究した. 5カ年の成果により,目的をもって生きる存在としての自律的な主体(人,ロボット,細胞)が, 他者主体を含む環境との相互作用を通して,意味の世界を創出して伝達する仕組み(記号過程)を解明し,システムが人を育て,人がシステムを育てる相互主導性を担保できるシステムの設計論を確立することができた。

2017-12-21 11:31:00
1 はてなブックマーク

https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-19GS0208/

1 0 0 0 ぺた語義:京大における Lisp を使ったプログラミング教育

著者: 湯淺太一奥乃博尾形哲也
出版者: 情報処理学会
雑誌: 情報処理 (ISSN:04478053)
巻号頁・発行日: vol.52, no.9, pp.1191-1194, 2011-08-15

2017-07-22 20:19:56
1 + 1 Twitter

https://ci.nii.ac.jp/naid/110008591827

1 0 0 0 OA 力学系学習木による効率的な学習のための階層性を利用した入力ベクトル決定法

著者: 濱翔平平井諒高橋城志山田浩貴尾形哲也菅野重樹金天海
雑誌: 第78回全国大会講演論文集
巻号頁・発行日: vol.2016, no.1, pp.367-368, 2016-03-10

力学系学習木により効率的な動作学習法を確立することを目的として,力学系学習木の持つ階層性を活用した入力ベクトル決定法を提案する.実験では,力学系学習木に柔軟ロボットアームの軌道学習をさせる際に,手先座標に対する影響度の大きさを考慮して入力ベクトルを構成することで,影響度を考慮しない学習法よりも高速に学習できることが分かった.

2017-06-22 18:05:54
1 + 0 Twitter

http://id.nii.ac.jp/1001/00162675/

1 0 0 0 OA Convolutional Neural Networkによる写真と手描きスケッチの認識

著者: 山川まどか関口香菜佐々木一磨尾形哲也
出版者: 人工知能学会
雑誌: 人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日: vol.30, 2016

2017-05-31 07:29:19
1 + 0 Twitter

https://kaigi.org/jsai/webprogram/2016/paper-1056.html

1 0 0 0 ドラムパターン推定によるドラム音認識誤り修正手法

著者: 吉井和佳後藤真孝駒谷和範尾形哲也奥乃博
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日: vol.2005, no.82, pp.91-96, 2005-08-05

本稿では、認識誤りを含むドラム音の発音時刻列からドラムパターンを推定し、認識誤り補正を行う手法について述べる。本稿におけるドラムパターンとは、バスドラム音およびスネアドラム音の発音時刻列のペアで構成される周期的な時間構造のことを指す。まず、我々が提案したドラム音認識手法を音楽音響信号に適用してドラム音の発音時刻列を得る。次に、発音時刻列を短時間フーリエ解析しても止まる周期長に基づき、ドラムパターンを切り出す。ここで、同じドラムパターンは連続して反復されやすいという仮定をおき、各ドラムパターン区間における実際の発音時刻列を推定する。最後に、切り出されたドラムパターンと推定された発音時刻列との比較により、認識誤りの可能性が高い時刻を検出し、再検証を行う。ポピュラー音楽50曲を用いたドラム音認識実験で、補正手法により認識率が77.4% から80.7%に改善することを確認した。may include recognition errors and corrects them by using the drum patterns. In this paper, drum patterns are defined as periodic temporal structures which are pair of onset-time sequences of bass and snare drum sounds. First, we apply our drum sound recognition method to musical audio signals, and obtain onset-time sequences of drum sounds. Next, we calculate the period length of those sequences by applying short-time Fourier transform, and extract drum patterns from them. Under the assumption that the same drum patterns tend to be repeated, we estimate an actual onset-time sequences in duration of each drum pattern. Finally, by comparing each drum pattern with its corresponding estimated onset-time sequences, we detect time points where recognition errors may have been made, and verify those points. The experiments of drum sound recognition with 50 popular songs showed that our correction method improved the recognition accuracy from 77.4% to 80.7%.

2014-07-17 11:35:43
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002952226

1 0 0 0 音楽共演ロボット:開始・終了キューの画像認識による人間のフルート奏者との実時間同期

著者: リムアンジェリカ水本武志大塚琢馬古谷ルイ賢造カイエ尾形哲也奥乃博
出版者: 情報処理学会
雑誌: 情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日: vol.52, no.12, pp.3599-3610, 2011-12-15

聞く,見るは,共演者が仲間の演奏者とテンポを合わせて演奏するために重要なスキルである.画像キュー(cue,合図)を検知し,他の演奏者に耳を傾けることによって,演奏者はいっせいに演奏を始め,テンポの緩急の合図に合わせ,さらに,いっせいに演奏を終えることができる.本稿では,人間のフルート奏者がアンサンブルリーダを担い,ロボットは伴奏者として人間の演奏に追従する問題を扱う.まず,フルート奏者の3種類のジェスチャを提案し,画像キューによる認識,音響ビートと画像キューとの統合によるテンポ推定について述べ,テルミン演奏共演ロボットのジェスチャ認識について報告する.初期実験で3タイプの画像キューが83%以上で検出できること,また,画像キューと音響ビート検出とを組み合わせることにより,テンポ検出が0.5秒以内に行えればビート追跡が安定することが分かった.この結果,フルート奏者の指示に合わせて共演者音楽ロボットがテルミンを演奏し,歌を歌うことが可能となった.Listening and watching are important skills for co-players to play in time with fellow musicians. By detecting visual cues and listening to other players, musicians can start together, stop together, and follow a leader's visual cues of changes in tempo. In this paper, we formalize three visual cues for the case of flutists, and describe how our thereminist robot co-player system detects them. Initial experiments show over 83% detection rates for our 3 types of visual cues. Additionally, by coupling visual cues and acoustic beat detection, the robot can extract a tempo in half a second. The resulting robot co-player can play theremin and sing a song with the lead of a human flutist.

2014-06-12 03:40:00
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110008719935

1 0 0 0 OA Deep neural networkを用いたヒューマノイドロボットによる物体操作行動の記憶学習と行動生成

著者: 野田邦昭有江浩明菅佑樹尾形哲也
出版者: 人工知能学会
雑誌: 人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日: vol.27, 2013

恒等写像を学習する多段型神経回路モデルを,ロボットによる複数の物体操作行動から得られた視覚運動時系列の記憶学習に適用した.これにより,行動パターンに応じた内部表現が学習器によって自己組織化され,獲得された内部表現を用いた行動認識が実現した.また,獲得された記憶を用いて時系列予測やクロスモーダル連想を行い,環境変化に応じて動的に行動選択したり,運動情報から視覚情報を復元したりすることが可能になった.

2014-02-28 23:32:06
1 + 0 Twitter

https://kaigi.org/jsai/webprogram/2013/paper-181.html

1 0 0 0 実環境音声認識のためのロボット聴覚システム開発とパラメータチューニング

著者: 高橋徹中臺一博駒谷和範尾形哲也奥乃博
雑誌: 全国大会講演論文集
巻号頁・発行日: vol.72, pp.29-30, 2010-03-08
参考文献数: 5

2013-10-04 13:56:36
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110008138999

1 0 0 0 神経回路モデルの感覚・行為予測に基づく空間認知モデル

著者: 尾形哲也西出俊
出版者: 計測自動制御学会
雑誌: 計測と制御 = Journal of the Society of Instrument and Control Engineers (ISSN:04534662)
巻号頁・発行日: vol.48, no.12, pp.852-857, 2009-12-10
参考文献数: 8

2013-08-06 02:30:52
1 + 0 Twitter

https://ci.nii.ac.jp/naid/10026206203

1 0 0 0 マルチメディアコンテンツにおける音楽と映像の調和度計算モデル

著者: 西山正紘北原鉄朗駒谷和範尾形哲也奥乃博
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告. MUS,[音楽情報科学] (ISSN:09196072)
巻号頁・発行日: vol.69, pp.31-36, 2007-02-23
参考文献数: 13
被引用文献数: 8

本稿では,アクセント構造およびムードの一致に基づいて,音楽と映像の調和の度合い(調和度)を計算する枠組を提案する.一般に,音楽と映像の調和要因としては,時間的なアクセントの一致による時間的調和と,ムードの一致による意味的調和の2つが存在する.従来の研究では,それぞれの要因のみしか扱っておらず,両要因を統一的に扱った事例は存在しない.そこで本稿では,音楽と映像の調和度を,アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する.アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて,ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する.実映像作品を対象とし,本手法の有効性を実験により評価した.

2013-01-13 02:51:35
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110006222782

1 0 0 0 OA マルチメディアコンテンツにおける音楽と映像の調和度計算モデル

著者: 西山正紘北原鉄朗駒谷和範尾形哲也奥乃博
雑誌: 情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日: vol.2007, no.15(2007-MUS-069), pp.31-36, 2007-02-23

本稿では、アクセント構造およびムードの一致に基づいて、音楽と映像の調和の度合い(調和度)を計算する枠組を提案する。一般に、音楽と映像の調和要因としては、時間的なアクセントの一致による時間的調和と、ムードの一致による意味的調和の2つが存在する。従来の研究では、それぞれの要因のみしか扱っておらず、両要因を統一的に扱った事例は存在しない。そこで本稿では、音楽と映像の調和度を、アクセント構造の一致に基づいて定量化した調和度とムードの一致に基づいて定量化した調和度の重み付き線形和で表現する。アクセント構造の一致は音楽と映像それぞれの特徴量系列間の相関に基づいて、ムードの一致はそれぞれの特徴部分空間内における相互の特徴量の連想に基づいて定量化する。実映像作品を対象とし、本手法の有効性を実験により評価した。

2012-04-06 02:37:08
1 + 1 Twitter

http://id.nii.ac.jp/1001/00055812/

1 0 0 0 環境音から擬音語への自動変換における特徴量抽出法の検討

著者: 山川暢英北原鉄朗高橋徹駒谷和範尾形哲也奥乃博
雑誌: 全国大会講演論文集
巻号頁・発行日: vol.72, pp.257-258, 2010-03-08

2011-12-12 23:13:33
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110008107559

1 0 0 0 OA 音環境理解に基づくロボット聴覚の構築

著者: 奥乃博尾形哲也駒谷和範高橋徹白松俊中臺一博北原鉄朗糸山克寿浅野太浅野太
出版者: 京都大学
雑誌: 基盤研究(S)
巻号頁・発行日: 2007

音環境理解の主要機能である混合音の音源定位・分離・認識技術を開発し,ロボット聴覚ソフトウエアHARKとして公開し,国内外で複数の講習会を実施した. HARKを応用し,複数話者同時発話を認識する聖徳太子ロボット,ユーザの割込発話を許容する対話処理などを開発し,その有効性を実証した.さらに,多重奏音楽演奏から書くパート演奏を聞き分ける技術,実時間楽譜追跡機能を開発し,人と共演をする音楽ロボットなどに応用した。

2011-06-12 00:35:05
1 + 0 Twitter

https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-19100003/

1 0 0 0 環境音を対象とした擬音語自動認識 : 擬音語表現における音素決定曖昧性の解消

著者: 石原一志駒谷和範尾形哲也奥乃博
出版者: The Japanese Society for Artificial Intelligence
雑誌: 人工知能学会論文誌 = Transactions of the Japanese Society for Artificial Intelligence : AI (ISSN:13460714)
巻号頁・発行日: vol.20, pp.229-236, 2005-11-01
被引用文献数: 5 2

Environmental sounds are very helpful in understanding environmental situations and in telling the approach of danger, and sound-imitation words (sound-related onomatopoeia) are important expressions to inform such sounds in human communication, especially in Japanese language. In this paper, we design a method to recognize sound-imitation words (SIWs) for environmental sounds. Critical issues in recognizing SIW are how to divide an environmental sound into recognition units and how to resolve representation ambiguity of the sounds. To solve these problems, we designed three-stage procedure that transforms environmental sounds into sound-imitation words, and <I>phoneme group expressions</I> that can represent ambiguous sounds. The three-stage procedure is as follows: (1) a whole waveform is divided into some chunks, (2) the chunks are transformed into sound-imitation syllables by phoneme recognition, (3) a sound-imitation word is constructed from sound-imitation syllables according to the requirements of the Japanese language. Ambiguity problem is that an environmental sound is often recognized differently by different listeners even under the same situation. Phoneme group expressions are new phonemes for environmental sounds, and they can express multiple sound-imitation words by one word. We designed two sets of phoneme groups: ``a set of basic phoneme group'' and ``a set of articulation-based phoneme group'' to absorb the ambiguity. Based on subjective experiments, the set of basic phoneme groups proved more appropriate to represent environmental sounds than the articulation-based one or a set of normal Japaneses phonemes.

2010-08-17 21:22:49
1 はてなブックマーク

1 0 0 0 複数ドメイン音声対話システムにおける対話履歴を利用したドメイン選択の高精度化

著者: 神田直之駒谷和範中野幹生中臺一博辻野広司尾形哲也奥乃博
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日: vol.2006, no.12, pp.55-60, 2006-02-04
被引用文献数: 4

複数のドメインを扱う音声対話システムにおいて,対話の文脈や進行に関する特徴量を導入してより精度よくドメイン選択を行う手法を開発したので報告する.本稿ではドメイン選択問題を,応答すべきドメインが,(I)ひとつ前の応答を行ったドメイン,(II)音声認識結果に対する最尤のドメイン,(III)それ以外のいずれかのドメイン,のどれに該当するかを判別する問題と捉える.ドメイン選択の正解を与えた対話データから,対話の文脈や進行に関する特徴量を用いて上記を判別する決定木を学習することにより,ドメイン選択器を構成した.5ドメインのマルチドメイン音声対話システムを用いた10名の被験者による評価実験の結果,音声認識尤度に基づく従来のドメイン選択手法に比べ,ドメイン選択誤りが11.6%削減された.We have developed a robust domain selection method using dialogue history in multi-domain spoken dialogue systems. We define domain selection as classifying problem among (I) the domain in the previous turn, (II) the domain in which N-best speech recognition results can be accepted with the highest recognition score, (III) other domains. We constructed a classifier by decision tree learning with dialogue corpus. The experimental result using 10 subjects shows that our method could reduced 11.6% domain selection error, compared with a conventional method using speech recognition likelihoods only.

2010-01-04 02:16:26
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110004710356

1 0 0 0 音楽音響信号と歌詞の時間的対応付け手法: 歌声の分離と母音のViterbiアラインメント

著者: 藤原弘将後藤真孝緒方淳駒谷和範尾形哲也奥乃博
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日: vol.2006, no.90, pp.37-44, 2006-08-07

本稿では,伴奏音を含む音楽音響信号と対応する歌詞の時間的な対応付け手法について述べる.クリーンな音声信号とその発話内容の時間的対応付けを推定をするViterbi アラインメント手法はこれまでも存在したが,歌声と同時に演奏される伴奏音の悪影響で市販 CD 中の歌声には適用できなかった.本稿では,この問題を解決するため,歌声の調波構造を抽出・再合成することで混合音中の歌声を分離する手法,歌声・非歌声状態を行き来する隠れマルコフモデル (HMM)を用いた歌声区間検出手法,音響モデルを分離歌声に適応させることで Viterbi アラインメントを適用する手法を提案する.日本語のポピュラー音楽を用いた評価実験を行い,本手法により10曲中8曲について十分な精度で音楽と歌詞の対応付けが出来ることを確かめた.This paper describes a method that can automatically synchronize between polyphonic musical audio signals and corresponding lyrics. Although there were methods that can synchronize between monophonic speech signals and corresponding text transcriptions by using Viterbi alignment techniques, they cannot be applied to vocals in CD recordings because accompaniment sounds often overlap with vocals. To align lyrics with such vocals, we therefore developed three methods: a method for segregating vocals from polyphonic sound mixtures by extracting and resynthesizing the vocal melody, a method for detecting vocal sections using a Hidden Markov Model (HMM) that transitions back and forth between vocal and non-vocal state, and a method for adapting a speech-recognizer phone model to segregated vocal signals. Experimental results for 10 Japanese popular-music songs showed that our system can synchronize between music and lyrics with satisfactory accuracy for 8 songs.

2009-09-27 15:00:55
1 はてなブックマーク

https://ci.nii.ac.jp/naid/110004849467

1 0 0 0 音声対話システムにおける動的ヘルプ生成を指向したWFSTに基づく文法検証によるユーザ知識推定

著者: 福林雄一朗駒谷和範尾形哲也
出版者: 人工知能学会
雑誌: 言語・音声理解と対話処理研究会 (ISSN:09185682)
巻号頁・発行日: vol.52, pp.45-50, 2008-03-07
被引用文献数: 1

2008-12-08 20:52:57
1 はてなブックマーク

https://ci.nii.ac.jp/naid/40015895139