著者
林 恒太朗 古明地 秀治 三橋 匠 飯村 康司 鈴木 皓晴 菅野 秀宣 篠田 浩一 田中 聡久
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.37, pp.1-6, 2021-02-24

近年の信号処理・機械学習技術の進展によって,発声時や傾聴時の音声を頭蓋内脳波から推定したり再構成することが可能になりつつある.一方で,想像している発話の推定は,脳波と正解ラベルの同期を取るのが困難であることもあり,めぼしい成果が出ていないのが現状である.本稿では,想像音声と脳波が適切に同期していれば,発声や傾聴時脳波の場合と同様に,脳波から音声をデコーディングできるという仮説を立てた.そこで,短い文が映し出された画面を実験参加者に呈示し,文字の色を1文字ずつハイライトすることで,想像時のタイミングや想像速度を制御できる実験を設計した.その上で,音声想像,音声傾聴,発声の3種類タスクを課し,そのときの頭蓋内脳波を記録した.さらに,傾聴タスクでは呈示した音声,発声タスクでは実験参加者の発話を記録した.計測した頭蓋内脳波に対して,発声または傾聴時の音声のメルケプストラム係数をもちいたエンコーダ・デコーダモデルによって,想像音声を学習・推論した.想像時の頭蓋内脳波からデコーディングした文の文字誤り率は,最良で約17%を達成した.
著者
石川 真也 船越 孝太郎 篠田 浩一 中野 幹生
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第27回全国大会(2013)
巻号頁・発行日
pp.1K3OS17a5, 2013 (Released:2018-07-30)

複数人のユーザと同時に対話できるマルチモーダル対話システムの構築を目指して,3人1組のグループが1体の小型ロボットと簡単なゲームを行う対話データを収集した.本発表では収集したデータの概要と,いくつかの側面からの分析結果を報告する.対話データの収集はWizard-of-Oz形式で行い,3人の参加者は監督者からの簡単な指示を受けて対話の場に出入りを繰り返し,ロボットとゲームを行った.
著者
上嶋 勇祐 井上 中順 篠田 浩一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.112, no.441, pp.185-190, 2013-02-14

この研究では、大量のインターネット映像の中から、対象のイベントを検出するイベント検出を目的とする。ここでの「イベント」は、「誕生日会」や「乗り物のタイヤ交換」など、いくつかの動作や物体の組み合わせで構成される事象を指す。イベント検出を対象とした多くの研究では、局所特徴抽出と特徴量のモデル化による手法が用いられている。特徴量の中でも、動作を表す時空間特徴量がイベント検出に効果的であることが示されているが、カメラの動きに対して頑健でないという問題がある。本論文では、この問題に対し、オプティカルフローによるカメラの動き推定とその補正を適用した時空間特徴量を提案する。この特徴量を含む、相補的な特徴量をそれぞれGMM supervectorによってモデル化し、SVMの入力として用いることでイベント検出を行う。TRECVID2012 Multimedia Event Detectionタスクで、Mean Normalized Detection Cost O.5296となり、参加17機関中3番目の精度であった。
著者
望月 貴裕 藤井 真人 篠田 浩一 酒井 善則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.93, no.6, pp.1009-1023, 2010-06-01
被引用文献数
2

スポーツ映像から特定シーンを効率良く検索する技術の実現が強く望まれている.我々は,シンボル列化したシーンの離散HMMを用いた学習による,野球映像の各シーンのプレイ種識別手法を提案した.しかし,出塁及びアウトカウント増加の起こる7種の「打席完了」プレイ種のみを識別対象としていたため,打席の完了しないプレイ種(投球のみ,ファウル,牽制及び盗塁)を識別対象に加えた場合,十分な識別精度が得られなかった.そこで本論文では,我々の従来手法に対し,新しく2種の「プレイ種相関度」を識別尺度として加えた野球映像のプレイ種識別手法を提案する.プレイ種相関度の一つは,シンボル列を構成するシンボルの中の「代表シンボル」の出現頻度に関するものであり,シンボル列全体ではなく個々のシンボルに注視した特定プレイ種との相関の強さを表す.もう一つは,投球ショット間隔に関するものであり,投球ショット間隔の長さのプレイ種との相関の強さを表す.学習用シーンのシンボル列を学習したHMMによるプレイ種ごとの出力ゆう度と,2種のプレイ種相関度を重み指数を付加して掛け合わせて各プレイ種の総合的なゆう度を算出し,識別を行う.そして本論文では,MLB放送映像を用いた実験により,打席完了プレイ種だけでなく,打席の完了しないプレイ種を含めた11のプレイ種を従来手法よりも高い精度で識別可能であることを示す.

1 0 0 0 魔女

著者
ミシュレ著 篠田浩一郎訳
出版者
現代思潮社
巻号頁・発行日
1967
著者
芝崎 泰弘 船越 孝太郎 篠田 浩一
出版者
一般社団法人 情報処理学会
雑誌
情報科学技術フォーラム講演論文集
巻号頁・発行日
vol.14, no.3, pp.163-166, 2015-08-24

現在の情報システムはユーザの習熟度などの内部状態を把握することが困難である。例えば、ユーザーの退屈度合いをその振る舞いから推定できれば、教育分野などでより個々人に最適化されたシステムを構築できる。この実現に向けて、我々はまずアルデバラン社の人型ロボットNAOと成人男女3名の参加者とが会話やジェスチャー等の対話を通じてゲームを進める場面をマイクロソフト社のKinectで収録した。そして、そのデータに対し、参加者の自発的振る舞いを退屈度を基準に分類し、退屈時の振る舞いの解析を行った。
著者
小平 優希 篠田 浩一 岩野 公司
雑誌
第78回全国大会講演論文集
巻号頁・発行日
vol.2016, no.1, pp.533-534, 2016-03-10

我々は,参加者各自が所有する複数のスマートフォンで録音された多人数会話音声に対し,各参加者の発声区間を推定(話者決定)する手法の提案を行っている.従来手法では,端末ごとに事前収録した所有者単独の発声を用いて各参加者の話者モデルを構築し,最尤モデル系列を探索することで話者決定を行っていた.しかし,実際の会話では他者音声の混入が生じるため,十分な話者決定性能が得られない.そこで本研究では,対象音声に「相互スペクトル減算」を適用して他者音声を低減し,話者モデルを再学習して話者決定に用いる手法を提案する.5セッションの雑談音声を用いて発声区間検出性能(F値)を評価したところ,提案手法により約6%の検出率の向上が確認された.
著者
篠田 浩一 井上 中順 岩野 公司 宇都 有昭
出版者
東京工業大学
雑誌
基盤研究(B)
巻号頁・発行日
2019-04-01

音声に関する音声認識、音声合成、話者認識などの様々なタスクを担当するエージェントが互いに競争・協調・調整しながら個々のタスクを学習する、マルチエージェントによる深層学習基盤を構築する。個々のタスクに関わる音声因子の間の含有・排他・共有などの関係を用いて音声データを因子分解することにより、個々のタスクの性能を高める。マルチタスク学習に比べ、少量・非均一のデータでより高い性能を得ることを目標とする。
著者
篠田 浩一郎
出版者
筑摩書房
雑誌
展望
巻号頁・発行日
no.235, pp.p78-93, 1978-07
著者
武田 晴登 西本 卓也 篠田 浩一 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.48, pp.21-26, 2003-05-16
参考文献数
12
被引用文献数
4

多重音を含む楽曲の演奏のMIDI(Musical Instruments Digital Interface)信号からの自動採譜に確率モデルを用いる。MIDI信号を対象とした場合は演奏の音高情報は既知であるので、リズム推定が必要である。演奏の速度が一定である場合は量子化によるリズム推定が容易であるが、演奏中にテンポが変動する曲では難しい。我々は、多声部に跨るIOI(発音時刻の間隔)から得られる相対的な音長情報であるリズムベクトルを確率モデルの特微量とし、モデルのパラメータ値を楽譜や演奏から学習する。実際の採譜手順は、同時発音の検出の後にIOIの時系列を求め、HMM(隠れマルコフモデル)を用いてIOIの時系列から最適なリズム譜を推定し、そしてリズム譜をもとに各音価の推定する。5人の奏者による電子ピアノの演奏に対して性能評価実験を行い、音価復元率として「フーガ」に対して92.2%、「トロイメライ」に対して52.1%を得た。This paper proposes an automatic transcription method for polyphonic musical performances in MIDI signals. Pitches and rhythms are basic information which is necessary to write scores. From the MIDI signals of human performance, we just need to recognize rhythms from time information in MIDI signals because pitches are already known in MIDI signals. We propose a method on rhythm recognition, especially targeting at polyphonic music performances. In the proposed probabilistic models for rhythm recognition, we use rhythm vectors, which are obtained from IOI(Inter- Onset Interval) sequence across the multi voices, as a feature of probabilistic models. Thevalues of parameters in our model can be optimized by the learning from scores and human performances. In experiments on performances by 5 piano players with an electronic piano, we obtained score restoration rates of 92.2% for"Fuga"and 52.1% for "Traumerai".
著者
篠田 浩一 堀 貴明 堀 智織 篠崎 隆宏
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014-SLP-100, no.2, pp.1-6, 2014-01-24

情報処理学会音声言語情報処理 (SLP) 研究会が 100 回を迎えた.音声認識・理解はこの 20 余年の間に当初は予想もできないほど飛躍的な進歩を遂げた.本研究会は日本における音声認識・理解研究の議論・発表の場としてその進歩に大きく貢献してきた.本稿では,この記念すべき 100 回目の研究会における一連の企画の 1 つとして,この 100 回の歩みを踏まえた上で,今後音声認識・理解研究が進むべき方向性について,4 人の研究者が提言を行う.
著者
武田 晴登 篠田 浩一 嵯峨山 茂樹
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.63, pp.23-28, 2002-07-07
被引用文献数
6

本稿では、MIDIキーボードによる人間の演奏から自動採譜を行うシステムについて述べる。鍵盤楽器からMIDI信号を入力するため、ピッチについての情報は正確に得られるのに対し、リズムについては音の長さが得られるだけなので、音の長さを音符に変換する処理が必要である。市販ソフトではメトロノームなどによりテンポを強制された演奏に対する自動採譜が実現されているが、テンポの指定を行わず自由に弾かれた演奏に対するリズム認識についは有効な手法は確立されていない。我々はテンポの指定のない演奏に対するリズム認識を行うために、音楽の時間構造をテンポとリズムパターンに分けて考え、リズムパターンを表す特徴量である「リズムベクトル」に注目する。リズムベクトルとテンポ変動は、隠れマルコフモデルを用いてモデリングを行い、リズム認識の問題の推定のの問題として扱う。本稿では、本稿では、リズムベクトルに基づくリズム認識のための確立モデルを提案する。さらに、提案されるモデルを用いた実験として3人の被験者のMIDIキーボードによる単旋律の曲の演奏について認識実験を行い、有効性を示唆する実験結果として認識率93.2%が得られたことを報告する。This paper proposes a rhythm recognition method for MIDI signal performed by MIDI keyboard. An usual way of automatic transcription from MIDI signals is to play MIDI keyboard with metronome to perform in constant tempo and quantize the note durations in a resolution level which is given by the user. A new method proposed in this paper, however, does not require performer to obey the beats of metronome and can recognize rhythm pattern for automatic transcription. We define ratio of note durations as a new feature "Rhythm vector" .Rhythm Vector and tempo variation are integrated in Hidden Markov Model, which is used in modern speech recognition, and we deal with rhythm recognition as a stochastic estimating problem. Experimental result is also reported.
著者
篠田 浩一 村田 奈芳
出版者
北海道農業研究センター
雑誌
北海道農業研究センター研究報告 (ISSN:13478117)
巻号頁・発行日
no.195, pp.13-21, 2011-08

1.北海道農業研究センターで育成したアリウム「札幌1号(ブルーパフューム)」,「札幌2号(スカイパフューム)」 の開花調節法の検討を行った。2. 促成開花には「札幌1号」は定植前に5℃で10~12週(2.5~3か月), 「札幌2号」は5℃で2か月程度の低温処理が必要である。3. 促成栽培で得られた鱗茎(切り下球)を用いて6月から低温処理を行うことにより10月からの開花が可能である。低温処理開始時期や低温処理期間を変えることにより,10月~1月までの連続した出荷が可能となる。4.-2℃で貯蔵した鱗茎を1~9月に定植したところ,いずれの定植日でも開花する個体が認められた。しかし,高温期に定植した場合,開花率や品質の低下がみられた。5. 長日処理には,開花率の向上や開花の促進,花茎の伸長促進等の効果が認められた。
著者
篠田 浩一 渡辺 隆夫
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
巻号頁・発行日
vol.14, pp.75-81, 1996-12-12
参考文献数
10
被引用文献数
4

近年,隠れマルコフモデル(HMM)を用いた大語葉音声認識システムにおいて,コンテキスト依存サブワード単位がしばしば用いられてきた.その場合すべての認識単位のパラメータを十分な精度で学習するためには,一般に学習データ量が不足しているため,これらのシステムのほとんどは,モデルの自由度を下げるために様々な方法でパラメータのクラスタリングを行なっている.しかしながら,これらのクラスタリングの手法は停止基準を内包していなかった.本稿では,情報量基準の1つであるMDL基準を停止基準として用いる方法を提案する.評価実験の結果,提案法は少ない計算量で従来の発見的な方法と同等以上の性能をもつことが明らかになった.
著者
立澤 文見 斎藤 規夫 鴫原 淳 本多 利雄 土岐 健次郎 篠田 浩一 遊川 知久 三吉 一光
出版者
THE JAPANESE SOCIETY FOR HORTICULTURAL SCIENCE
雑誌
Journal of the Japanese Society for Horticultural Science (ISSN:18823351)
巻号頁・発行日
vol.79, no.2, pp.215-220, 2010 (Released:2010-04-22)
参考文献数
26
被引用文献数
6 16

青花シラン‘紫式部’の青紫色花被から新規アシル化アントシアニンを単離した.この色素はシアニジン 3,7-ジグルコシドをデアシル体とし,2 分子のカフェ酸でアシル化していた.化学構造は化学およびスペクトル分析による構造解析の結果,シアニジン 3-O-(β-グルコピラノシド)-7-O-[6-O-(4-O-(6-O-(4-O-(β-グルコピラノシル)-trans-カフェオイル)-β-グルコピラノシル)-trans-カフェオイル)-β-グルコピラノシド]であることがわかった.本研究の結果から,青花シランにおける花色のブルーイング効果について考察した.
著者
Huu Bach Nguyen 篠田 浩一 古井 貞煕
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.104, no.448, pp.13-18, 2004-11-12
被引用文献数
9

本論文では,野球放送からハイライトシーンを抽出することを目的として,ビデオデータをインデクシングするための統計的なフレームワークを提案する.マルチストリームの隠れマルコフモデルを用い,主成分分析による特徴量,フラクタル特徴量,差分特徴量の3つの特徴量間の重み最適化を行う.また,カメラショットの認識結果をシーン境界の検出に利用した.4.5時間の野球放送のダイジェストデータを用い,このフレームワークの有効性を確認した.8種類のシーンの認識率は76.8%となり,シーン境界検出のない単一ストリームHMMの場合に比べ,11.6ポイントの改善を得た.
著者
谷 真宏 江森 正 大西祥史 越仲 孝文 篠田 浩一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.129, pp.85-89, 2007-12-20
被引用文献数
4

十分統計量を用いた教師なし話者適応において,選択する話者の数を決定する手法を提案する.音声認識における高速な教師なし話者適応の一つとして,話者毎の十分統計量を用いた手法が提案されている.これは,予め用意した複数の話者の中から,評価話者に音響的な特徴が近い話者を選択し,選択された話者の十分統計量を用いて,評価話者に適応した音響モデルを構築する手法である.従来手法では,評価話者に音響的な特徴が近い話者を選択する際,複数の話者の中から,予め定められた数だけ選択する.提案手法では,評価話者と予め用意した話者との音響特徴量空間における話者間距離を基準に,選択する話者の数を決定する.電話による対話音声を用いた認識実験において,従来手法に比較し,単語正解精度が 0.74 ポイント向上した.特に,音響的な特徴が近い話者が少ない評価話者に対して有効であることを確認した.We propose a new speaker selection method for the unsupervised speaker adaptation based on HMM sufficient statistics. The adaptation technique of using HMM sufficient statistics has been proposed as one of the rapid unsupervised speaker adaptation techniques in speech recognition. The procedure is as follows: First the training speakers acoustically close to the test speaker are selected. Then, the acoustic model is trained using the HMM sufficient statistics of these selected training speakers. In this technique, the number of selected training speakers is always constant. In our proposed speaker selection method, the number of speakers is determined by the distances between the test speaker and each training speaker. In our recognition experiments using spoken dialogue data, the proposed method improved word accuracy by 0.74 points. It was confirmed that the proposed method particularly effective when there are not many training speakers around the test speaker in acoustic space.
著者
井上 中順 斉藤 辰彦 篠田 浩一 古井 貞煕
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J93-D, no.12, pp.2633-2644, 2010-12-01

本研究では,映像の中から「飛行機」や「歌っている人」といった高次特徴を検出するタスクに対し,SIFT特徴とMFCC特徴の混合ガウス分布(GMM)を用いた統計的手法を提案する.検出手法には,話者認識などで用いられてきたゆう度比による検出と,GMM Supervector SVM (GS-SVM)による検出の二つを用いる.ゆう度比による検出では,高次特徴が出現する部分としない部分のGMMをそれぞれ学習し,二つのモデルから得られるゆう度の比をもとに高次特徴を検出する.GS-SVMでは,各ショットに対するGMMを求め,GMM間の距離から定義されるRBFカーネルを用いたSVMで学習・識別を行う.最後に,各手法から対数ゆう度比を求め,その重み付き和により手法の融合を行う.TRECVID2009のデータセットを用いて評価実験を行った結果,Mean Average PrecisionはSIFT特徴とGS-SVMを用いた場合の0.141から,融合手法により0.173まで向上した.