文献一覧: 篠田浩 (著者)

6 0 0 0 OA 頭蓋内脳波からのエンコーダ・デコーダモデルによる想像音声推定

著者: 林恒太朗古明地秀治三橋匠飯村康司鈴木皓晴菅野秀宣篠田浩一田中聡久
雑誌: 研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日: vol.2021-SLP-136, no.37, pp.1-6, 2021-02-24

近年の信号処理・機械学習技術の進展によって,発声時や傾聴時の音声を頭蓋内脳波から推定したり再構成することが可能になりつつある.一方で,想像している発話の推定は,脳波と正解ラベルの同期を取るのが困難であることもあり,めぼしい成果が出ていないのが現状である.本稿では,想像音声と脳波が適切に同期していれば,発声や傾聴時脳波の場合と同様に,脳波から音声をデコーディングできるという仮説を立てた.そこで,短い文が映し出された画面を実験参加者に呈示し,文字の色を1文字ずつハイライトすることで,想像時のタイミングや想像速度を制御できる実験を設計した.その上で,音声想像,音声傾聴,発声の3種類タスクを課し,そのときの頭蓋内脳波を記録した.さらに,傾聴タスクでは呈示した音声,発声タスクでは実験参加者の発話を記録した.計測した頭蓋内脳波に対して,発声または傾聴時の音声のメルケプストラム係数をもちいたエンコーダ・デコーダモデルによって,想像音声を学習・推論した.想像時の頭蓋内脳波からデコーディングした文の文字誤り率は,最良で約17%を達成した.

2021-03-04 10:31:20
6 + 10 Twitter

http://id.nii.ac.jp/1001/00209673/

3 0 0 0 IR 地方自治体における地域包括ケアの取り組みについて -岐阜県大垣市の事例-

著者: 篠田浩
出版者: 日本福祉大学社会福祉学部
雑誌: 日本福祉大学社会福祉論集 = Journal social Welfare, Nihon Fukushi University (ISSN:1345174X)
巻号頁・発行日: no.140, pp.135-138, 2019-03-31

2021-09-29 14:00:13
3 + 4 Twitter

https://ci.nii.ac.jp/naid/120006595192

3 0 0 0 OA 多人数対話ロボットの実現にむけたマルチモーダル対話データの収集と分析

著者: 石川真也船越孝太郎篠田浩一中野幹生
出版者: 一般社団法人人工知能学会
雑誌: 人工知能学会全国大会論文集第27回全国大会(2013)
巻号頁・発行日: pp.1K3OS17a5, 2013 (Released:2018-07-30)

複数人のユーザと同時に対話できるマルチモーダル対話システムの構築を目指して,3人1組のグループが1体の小型ロボットと簡単なゲームを行う対話データを収集した.本発表では収集したデータの概要と,いくつかの側面からの分析結果を報告する.対話データの収集はWizard-of-Oz形式で行い,3人の参加者は監督者からの簡単な指示を受けて対話の場に出入りを繰り返し,ロボットとゲームを行った.

2021-07-12 11:49:59
3 + 8 Twitter

2 0 0 0 OA 音声言語処理における深層学習:総説

著者: 篠田浩一
出版者: 一般社団法人日本音響学会
雑誌: 日本音響学会誌 (ISSN:03694232)
巻号頁・発行日: vol.73, no.1, pp.25-30, 2017 (Released:2017-07-01)
参考文献数: 25

2021-02-10 17:53:00
2 はてなブックマーク

2 0 0 0 カメラの動き補正に基づく時空間特徴量とGMM supervectorを用いた映像からのイベント検出(テーマセッション,大規模データベースとパターン認識)

著者: 上嶋勇祐井上中順篠田浩一
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.112, no.441, pp.185-190, 2013-02-14

この研究では、大量のインターネット映像の中から、対象のイベントを検出するイベント検出を目的とする。ここでの「イベント」は、「誕生日会」や「乗り物のタイヤ交換」など、いくつかの動作や物体の組み合わせで構成される事象を指す。イベント検出を対象とした多くの研究では、局所特徴抽出と特徴量のモデル化による手法が用いられている。特徴量の中でも、動作を表す時空間特徴量がイベント検出に効果的であることが示されているが、カメラの動きに対して頑健でないという問題がある。本論文では、この問題に対し、オプティカルフローによるカメラの動き推定とその補正を適用した時空間特徴量を提案する。この特徴量を含む、相補的な特徴量をそれぞれGMM supervectorによってモデル化し、SVMの入力として用いることでイベント検出を行う。TRECVID2012 Multimedia Event Detectionタスクで、Mean Normalized Detection Cost O.5296となり、参加17機関中3番目の精度であった。

2016-11-23 14:20:41
2 + 0 Twitter

https://ci.nii.ac.jp/naid/110009728823

2 0 0 0 シンボル列化したシーンの学習と2種のプレイ種相関度による野球放送映像プレイ種識別(画像・映像処理)

著者: 望月貴裕藤井真人篠田浩一酒井善則
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日: vol.93, no.6, pp.1009-1023, 2010-06-01
被引用文献数: 2

スポーツ映像から特定シーンを効率良く検索する技術の実現が強く望まれている.我々は,シンボル列化したシーンの離散HMMを用いた学習による,野球映像の各シーンのプレイ種識別手法を提案した.しかし,出塁及びアウトカウント増加の起こる7種の「打席完了」プレイ種のみを識別対象としていたため,打席の完了しないプレイ種(投球のみ,ファウル,牽制及び盗塁)を識別対象に加えた場合,十分な識別精度が得られなかった.そこで本論文では,我々の従来手法に対し,新しく2種の「プレイ種相関度」を識別尺度として加えた野球映像のプレイ種識別手法を提案する.プレイ種相関度の一つは,シンボル列を構成するシンボルの中の「代表シンボル」の出現頻度に関するものであり,シンボル列全体ではなく個々のシンボルに注視した特定プレイ種との相関の強さを表す.もう一つは,投球ショット間隔に関するものであり,投球ショット間隔の長さのプレイ種との相関の強さを表す.学習用シーンのシンボル列を学習したHMMによるプレイ種ごとの出力ゆう度と,2種のプレイ種相関度を重み指数を付加して掛け合わせて各プレイ種の総合的なゆう度を算出し,識別を行う.そして本論文では,MLB放送映像を用いた実験により,打席完了プレイ種だけでなく,打席の完了しないプレイ種を含めた11のプレイ種を従来手法よりも高い精度で識別可能であることを示す.

2015-06-23 23:45:06
2 + 1 Twitter

https://ci.nii.ac.jp/naid/110007618372

1 0 0 0 魔女

著者: ミシュレ著篠田浩一郎訳
出版者: 現代思潮社
巻号頁・発行日: 1967

2022-07-17 23:09:29
1 + 0 Twitter

https://ci.nii.ac.jp/ncid/BN02421945

1 0 0 0 IR H-018 ロボットとの対話における人間の「退屈」状態の解析(H分野:画像認識・メディア理解,一般論文)

著者: 芝崎泰弘船越孝太郎篠田浩一
出版者: 一般社団法人情報処理学会
雑誌: 情報科学技術フォーラム講演論文集
巻号頁・発行日: vol.14, no.3, pp.163-166, 2015-08-24

現在の情報システムはユーザの習熟度などの内部状態を把握することが困難である。例えば、ユーザーの退屈度合いをその振る舞いから推定できれば、教育分野などでより個々人に最適化されたシステムを構築できる。この実現に向けて、我々はまずアルデバラン社の人型ロボットNAOと成人男女3名の参加者とが会話やジェスチャー等の対話を通じてゲームを進める場面をマイクロソフト社のKinectで収録した。そして、そのデータに対し、参加者の自発的振る舞いを退屈度を基準に分類し、退屈時の振る舞いの解析を行った。

2022-03-25 09:00:08
1 + 1 Twitter

https://ci.nii.ac.jp/naid/110009988362

1 0 0 0 複数スマートフォンで収録された会話音声の相互スペクトル減算を用いた話者決定

著者: 小平優希篠田浩一岩野公司
雑誌: 第78回全国大会講演論文集
巻号頁・発行日: vol.2016, no.1, pp.533-534, 2016-03-10

我々は,参加者各自が所有する複数のスマートフォンで録音された多人数会話音声に対し,各参加者の発声区間を推定(話者決定)する手法の提案を行っている.従来手法では,端末ごとに事前収録した所有者単独の発声を用いて各参加者の話者モデルを構築し,最尤モデル系列を探索することで話者決定を行っていた.しかし,実際の会話では他者音声の混入が生じるため,十分な話者決定性能が得られない.そこで本研究では,対象音声に「相互スペクトル減算」を適用して他者音声を低減し,話者モデルを再学習して話者決定に用いる手法を提案する.5セッションの雑談音声を用いて発声区間検出性能(F値)を評価したところ,提案手法により約6%の検出率の向上が確認された.

2022-01-31 22:00:07
1 + 1 Twitter

https://ci.nii.ac.jp/naid/170000163534

1 0 0 0 マルチエージェント深層学習による音声因子分解

著者: 篠田浩一井上中順岩野公司宇都有昭
出版者: 東京工業大学
雑誌: 基盤研究(B)
巻号頁・発行日: 2019-04-01

音声に関する音声認識、音声合成、話者認識などの様々なタスクを担当するエージェントが互いに競争・協調・調整しながら個々のタスクを学習する、マルチエージェントによる深層学習基盤を構築する。個々のタスクに関わる音声因子の間の含有・排他・共有などの関係を用いて音声データを因子分解することにより、個々のタスクの性能を高める。マルチタスク学習に比べ、少量・非均一のデータでより高い性能を得ることを目標とする。

2021-04-25 17:00:06
1 + 0 Twitter

https://kaken.nii.ac.jp/grant/KAKENHI-PROJECT-19H04133/

1 0 0 0 OA 音声認識における転移学習 : 話者適応(<特集>知識の転移)

著者: 篠田浩一 Koichi Shinoda 東京工業大学大学院情報理工学研究科 School of Information Science and Technology Tokyo Institute of Technology
雑誌: 人工知能学会誌 = Journal of Japanese Society for Artificial Intelligence (ISSN:09128085)
巻号頁・発行日: vol.27, no.4, pp.359-364, 2012-07-01

2018-04-01 14:18:25
1 + 7 Twitter

http://id.nii.ac.jp/1004/00008008/

1 0 0 0 多量情報時代の視覚メディア--濫喩としての日常言語

著者: 篠田浩一郎
出版者: 筑摩書房
雑誌: 展望
巻号頁・発行日: no.235, pp.p78-93, 1978-07

2017-11-20 19:46:11
1 + 0 Twitter

https://ci.nii.ac.jp/naid/40002564506

1 0 0 0 確率モデルによる多声楽曲MIDI演奏からの楽譜推定

著者: 武田晴登西本卓也篠田浩一嵯峨山茂樹
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日: vol.2003, no.48, pp.21-26, 2003-05-16
参考文献数: 12
被引用文献数: 4

多重音を含む楽曲の演奏のMIDI(Musical Instruments Digital Interface)信号からの自動採譜に確率モデルを用いる。MIDI信号を対象とした場合は演奏の音高情報は既知であるので、リズム推定が必要である。演奏の速度が一定である場合は量子化によるリズム推定が容易であるが、演奏中にテンポが変動する曲では難しい。我々は、多声部に跨るIOI(発音時刻の間隔)から得られる相対的な音長情報であるリズムベクトルを確率モデルの特微量とし、モデルのパラメータ値を楽譜や演奏から学習する。実際の採譜手順は、同時発音の検出の後にIOIの時系列を求め、HMM(隠れマルコフモデル)を用いてIOIの時系列から最適なリズム譜を推定し、そしてリズム譜をもとに各音価の推定する。5人の奏者による電子ピアノの演奏に対して性能評価実験を行い、音価復元率として「フーガ」に対して92.2%、「トロイメライ」に対して52.1%を得た。This paper proposes an automatic transcription method for polyphonic musical performances in MIDI signals. Pitches and rhythms are basic information which is necessary to write scores. From the MIDI signals of human performance, we just need to recognize rhythms from time information in MIDI signals because pitches are already known in MIDI signals. We propose a method on rhythm recognition, especially targeting at polyphonic music performances. In the proposed probabilistic models for rhythm recognition, we use rhythm vectors, which are obtained from IOI(Inter- Onset Interval) sequence across the multi voices, as a feature of probabilistic models. Thevalues of parameters in our model can be optimized by the learning from scores and human performances. In experiments on performances by 5 piano players with an electronic piano, we obtained score restoration rates of 92.2% for"Fuga"and 52.1% for "Traumerai".

2017-10-29 01:01:21
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002913457

1 0 0 0 OA 「音声認識」は今後こうなる!

著者: 篠田浩一堀貴明堀智織篠崎隆宏
雑誌: 研究報告音声言語情報処理(SLP)
巻号頁・発行日: vol.2014-SLP-100, no.2, pp.1-6, 2014-01-24

情報処理学会音声言語情報処理 (SLP) 研究会が 100 回を迎えた.音声認識・理解はこの 20 余年の間に当初は予想もできないほど飛躍的な進歩を遂げた.本研究会は日本における音声認識・理解研究の議論・発表の場としてその進歩に大きく貢献してきた.本稿では,この記念すべき 100 回目の研究会における一連の企画の 1 つとして,この 100 回の歩みを踏まえた上で,今後音声認識・理解研究が進むべき方向性について,4 人の研究者が提言を行う.

2016-06-29 20:55:18
1 + 0 Twitter

http://id.nii.ac.jp/1001/00098136/

1 0 0 0 リズムベクトルを用いたリズム認識

著者: 武田晴登篠田浩一嵯峨山茂樹
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日: vol.2002, no.63, pp.23-28, 2002-07-07
被引用文献数: 6

本稿では、MIDIキーボードによる人間の演奏から自動採譜を行うシステムについて述べる。鍵盤楽器からMIDI信号を入力するため、ピッチについての情報は正確に得られるのに対し、リズムについては音の長さが得られるだけなので、音の長さを音符に変換する処理が必要である。市販ソフトではメトロノームなどによりテンポを強制された演奏に対する自動採譜が実現されているが、テンポの指定を行わず自由に弾かれた演奏に対するリズム認識についは有効な手法は確立されていない。我々はテンポの指定のない演奏に対するリズム認識を行うために、音楽の時間構造をテンポとリズムパターンに分けて考え、リズムパターンを表す特徴量である「リズムベクトル」に注目する。リズムベクトルとテンポ変動は、隠れマルコフモデルを用いてモデリングを行い、リズム認識の問題の推定のの問題として扱う。本稿では、本稿では、リズムベクトルに基づくリズム認識のための確立モデルを提案する。さらに、提案されるモデルを用いた実験として3人の被験者のMIDIキーボードによる単旋律の曲の演奏について認識実験を行い、有効性を示唆する実験結果として認識率93.2%が得られたことを報告する。This paper proposes a rhythm recognition method for MIDI signal performed by MIDI keyboard. An usual way of automatic transcription from MIDI signals is to play MIDI keyboard with metronome to perform in constant tempo and quantize the note durations in a resolution level which is given by the user. A new method proposed in this paper, however, does not require performer to obey the beats of metronome and can recognize rhythm pattern for automatic transcription. We define ratio of note durations as a new feature "Rhythm vector" .Rhythm Vector and tempo variation are integrated in Hidden Markov Model, which is used in modern speech recognition, and we deal with rhythm recognition as a stochastic estimating problem. Experimental result is also reported.

2015-03-27 23:15:07
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110002935784

1 0 0 0 低温処理や氷温貯蔵および長日処理がアリウム「札幌1号」,「札幌2号」の開花に及ぼす影響

著者: 篠田浩一村田奈芳
出版者: 北海道農業研究センター
雑誌: 北海道農業研究センター研究報告 (ISSN:13478117)
巻号頁・発行日: no.195, pp.13-21, 2011-08

1.北海道農業研究センターで育成したアリウム「札幌1号(ブルーパフューム)」,「札幌2号(スカイパフューム)」の開花調節法の検討を行った。2. 促成開花には「札幌1号」は定植前に5℃で10~12週(2.5~3か月), 「札幌2号」は5℃で2か月程度の低温処理が必要である。3. 促成栽培で得られた鱗茎(切り下球)を用いて6月から低温処理を行うことにより10月からの開花が可能である。低温処理開始時期や低温処理期間を変えることにより,10月~1月までの連続した出荷が可能となる。4.-2℃で貯蔵した鱗茎を1~9月に定植したところ,いずれの定植日でも開花する個体が認められた。しかし,高温期に定植した場合,開花率や品質の低下がみられた。5. 長日処理には,開花率の向上や開花の促進,花茎の伸長促進等の効果が認められた。

2014-11-26 21:00:16
1 + 0 Twitter

https://ci.nii.ac.jp/naid/120005321015

1 0 0 0 情報量基準を用いた状態クラスタリングによる音響モデルの作成

著者: 篠田浩一渡辺隆夫
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
巻号頁・発行日: vol.14, pp.75-81, 1996-12-12
参考文献数: 10
被引用文献数: 4

近年,隠れマルコフモデル(HMM)を用いた大語葉音声認識システムにおいて,コンテキスト依存サブワード単位がしばしば用いられてきた.その場合すべての認識単位のパラメータを十分な精度で学習するためには,一般に学習データ量が不足しているため,これらのシステムのほとんどは,モデルの自由度を下げるために様々な方法でパラメータのクラスタリングを行なっている.しかしながら,これらのクラスタリングの手法は停止基準を内包していなかった.本稿では,情報量基準の1つであるMDL基準を停止基準として用いる方法を提案する.評価実験の結果,提案法は少ない計算量で従来の発見的な方法と同等以上の性能をもつことが明らかになった.

2014-07-31 19:48:09
1 + 1 Twitter

https://ci.nii.ac.jp/naid/110002916937

1 0 0 0 OA 青花シラン‘紫式部’(ラン科)の花被片から単離されたアシル化シアニジン 3,7-ジグルコシド

著者: 立澤文見斎藤規夫鴫原淳本多利雄土岐健次郎篠田浩一遊川知久三吉一光
出版者: THE JAPANESE SOCIETY FOR HORTICULTURAL SCIENCE
雑誌: Journal of the Japanese Society for Horticultural Science (ISSN:18823351)
巻号頁・発行日: vol.79, no.2, pp.215-220, 2010 (Released:2010-04-22)
参考文献数: 26
被引用文献数: 6 16

青花シラン‘紫式部’の青紫色花被から新規アシル化アントシアニンを単離した.この色素はシアニジン 3,7-ジグルコシドをデアシル体とし,2 分子のカフェ酸でアシル化していた.化学構造は化学およびスペクトル分析による構造解析の結果,シアニジン 3-O-(β-グルコピラノシド)-7-O-[6-O-(4-O-(6-O-(4-O-(β-グルコピラノシル)-trans-カフェオイル)-β-グルコピラノシル)-trans-カフェオイル)-β-グルコピラノシド]であることがわかった.本研究の結果から,青花シランにおける花色のブルーイング効果について考察した.

2013-05-10 00:10:11
1 + 0 Twitter

1 0 0 0 隠れマルコフモデルを用いた野球放送の自動的インデクシング(顔・ジェスチャ認識のためのパターン認識メディア理解,一般)

著者: Huu Bach Nguyen 篠田浩一古井貞煕
出版者: 一般社団法人電子情報通信学会
雑誌: 電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日: vol.104, no.448, pp.13-18, 2004-11-12
被引用文献数: 9

本論文では,野球放送からハイライトシーンを抽出することを目的として,ビデオデータをインデクシングするための統計的なフレームワークを提案する.マルチストリームの隠れマルコフモデルを用い,主成分分析による特徴量,フラクタル特徴量,差分特徴量の3つの特徴量間の重み最適化を行う.また,カメラショットの認識結果をシーン境界の検出に利用した.4.5時間の野球放送のダイジェストデータを用い,このフレームワークの有効性を確認した.8種類のシーンの認識率は76.8%となり,シーン境界検出のない単一ストリームHMMの場合に比べ,11.6ポイントの改善を得た.

2013-03-08 05:30:06
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110003275624

1 0 0 0 十分統計量を用いた教師なし話者適応における話者選択法

著者: 谷真宏江森正大西祥史越仲孝文篠田浩一
出版者: 一般社団法人情報処理学会
雑誌: 情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日: vol.2007, no.129, pp.85-89, 2007-12-20
被引用文献数: 4

十分統計量を用いた教師なし話者適応において,選択する話者の数を決定する手法を提案する.音声認識における高速な教師なし話者適応の一つとして,話者毎の十分統計量を用いた手法が提案されている.これは,予め用意した複数の話者の中から,評価話者に音響的な特徴が近い話者を選択し,選択された話者の十分統計量を用いて,評価話者に適応した音響モデルを構築する手法である.従来手法では,評価話者に音響的な特徴が近い話者を選択する際,複数の話者の中から,予め定められた数だけ選択する.提案手法では,評価話者と予め用意した話者との音響特徴量空間における話者間距離を基準に,選択する話者の数を決定する.電話による対話音声を用いた認識実験において,従来手法に比較し,単語正解精度が 0.74 ポイント向上した.特に,音響的な特徴が近い話者が少ない評価話者に対して有効であることを確認した.We propose a new speaker selection method for the unsupervised speaker adaptation based on HMM sufficient statistics. The adaptation technique of using HMM sufficient statistics has been proposed as one of the rapid unsupervised speaker adaptation techniques in speech recognition. The procedure is as follows: First the training speakers acoustically close to the test speaker are selected. Then, the acoustic model is trained using the HMM sufficient statistics of these selected training speakers. In this technique, the number of selected training speakers is always constant. In our proposed speaker selection method, the number of speakers is determined by the distances between the test speaker and each training speaker. In our recognition experiments using spoken dialogue data, the proposed method improved word accuracy by 0.74 points. It was confirmed that the proposed method particularly effective when there are not many training speakers around the test speaker in acoustic space.

2012-08-27 00:00:06
1 + 0 Twitter

https://ci.nii.ac.jp/naid/110006549554

««
«
1
2
»
»»