著者
近藤 恵 兒嶋 朋貴 大川 智章 入部 百合絵
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J105-D, no.3, pp.208-216, 2022-03-01

近年,農業従事者数の減少により少人数で多頭数の家畜を管理するためのモニタリング技術が求められている.本研究では非接触に収集可能な牛の鳴き声を用いたモニタリング技術の構築を目的に,本論文ではモニタリング技術に必要な鳴き声からの個体識別手法について提案する.鳴き声を用いた個体識別の先行研究では,識別率が十分でないことや月齢による鳴き声の音響特性の違いを考慮していない点が課題として挙げられる.本研究では,月齢の異なる雌のホルスタイン種成牛5頭,育成牛9頭と子牛4頭の計18頭から鳴き声を採取し,声帯波長や声道長に関連のある基本周波数やパワー,線形予測残差波形のMFCC(Mel-Frequency Cepstrum Coefficients)などの音響的特徴量を抽出した.これらの特徴量を利用して,SVM(Support Vector Machine)による個体識別を行った結果,先行研究よりも識別率が35%以上向上した.これにより,牛も人と同様に声帯波長や声道長に個体性が含まれていることが明らかとなった.加えて,話者認識に用いられる相対位相を上記の音響的特徴量に加えることで個体識別の向上が確認された.
著者
山尾 元陽 平田 里佳 入部 百合絵 深井 健大郎 桂田 浩一 新田 恒雄
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回全国大会(2020)
巻号頁・発行日
pp.4L3OS1504, 2020 (Released:2020-06-19)

近年,脳波を用いて機械を操作するBCI(Brain Computer Interface)の研究が盛んに行われている.しかし,音声想起の認識に関する効果的な方法は確立していない.本報告では,利用者への負担が少ない非侵襲的な方法で,頭皮から脳波(Electroencephalogram ; EEG)信号を取得し,脳活動を分析する.また分析結果をもとに,音声想起(speech-imagery) 時の脳波から単語を認識することを目指す.本稿では7名分の脳波を用いた10数字単語想起に対する実験結果を報告する.認識実験ではRandom Forestを使用し,数字を想起した脳波信号から10数字の単語認識を行った.認識に使用する特徴量はゼロ交差率,パワースペクトルエントロピー,二乗平均平方根,尖度,線スペクトル,移動平均である.結果として,パワースペクトルエントロピーと尖度を用いた場合の正解率が高いことが明らかとなった.それらの特徴量を用いた結果,正解率(被験者平均)82.6%を得ることができた.想起時脳波信号を用いた単語認識には,これらの特徴量を用いることが有効であることが示された.
著者
木村 優志 入部 百合絵 桂田 浩一 新田 恒雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.5, pp.1356-1364, 2013-05-01
参考文献数
26

音声認識と合成を共通の調音特徴の時間変化モデルを用いて実現するシステムの開発を行っている.この方式は,音声から調音特徴を抽出することにより,調音特徴の時間変化を表現するHMMを構築する.本論文では音声合成に焦点をあて,HMMが生成する調音特徴系列を声道音響パラメータに変換した後,LSPディジタルフィルタで駆動音源と組み合わせて音声信号を得る方式を提案する.提案方式は,話者不変量である調音特徴の時間変化をHMMで表現するとともに,調音特徴から声道音響パラメータへの変換を特定の話者に対応したMLNで実現することにより,両者を独立モジュールとして実装するため,少量の音声試料で特定話者の音声を合成できる可能性がある.評価実験では,MOSテスト,及びスペクトルひずみから合成音の品質を評価し,提案手法の有効性を示す.
著者
菊地 泰己 桂田 浩一 入部 百合絵 新田 恒雄
雑誌
研究報告ヒューマンコンピュータインタラクション(HCI)
巻号頁・発行日
vol.2013, no.7, pp.1-2, 2013-01-25

本論文では,一般的な Web ブラウザ上でマルチモーダル対話システムを可能にするための JavaScrip tライブラリ MMI.js を提案する. MMI.js は,逐次的,同時的,択一的なマルチモーダル入出力の制御,入出力のタイミング制御,エージェントによるプレゼンテーションの各機能をサポートしている. MMI.js の有用性を確認するために,本研究室で開発している英語の発音訓練ソフトにマルチモーダルインターフェースを組み込んだ.これにより複数の入出力手段を組み合わせた複雑な対話を容易に記述できることを確認した.This paper proposes a JavaScript library called "MMI.js" which enables us to use multiple modalities on web browsers. This library supports sequential multimodal inputs/outputs, simultaneous multimodal inputs/outputs, alternative multimodal inputs/outputs, synchronization of multimodal inputs/outputs and gestures given by the dialogue agents. To show usefulness of this library, we embedded multimodal interaction into a pronunciation training application for Japanese students. Through the development of this application, we confirmed the library makes it easy to describe combination of multiple inputs/outputs appearing in complicated interaction.
著者
菊地 泰己 桂田 浩一 入部 百合絵 新田 恒雄
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.7, pp.1-2, 2013-01-25

本論文では,一般的な Web ブラウザ上でマルチモーダル対話システムを可能にするための JavaScrip tライブラリ MMI.js を提案する. MMI.js は,逐次的,同時的,択一的なマルチモーダル入出力の制御,入出力のタイミング制御,エージェントによるプレゼンテーションの各機能をサポートしている. MMI.js の有用性を確認するために,本研究室で開発している英語の発音訓練ソフトにマルチモーダルインターフェースを組み込んだ.これにより複数の入出力手段を組み合わせた複雑な対話を容易に記述できることを確認した.This paper proposes a JavaScript library called "MMI.js" which enables us to use multiple modalities on web browsers. This library supports sequential multimodal inputs/outputs, simultaneous multimodal inputs/outputs, alternative multimodal inputs/outputs, synchronization of multimodal inputs/outputs and gestures given by the dialogue agents. To show usefulness of this library, we embedded multimodal interaction into a pronunciation training application for Japanese students. Through the development of this application, we confirmed the library makes it easy to describe combination of multiple inputs/outputs appearing in complicated interaction.
著者
木村 優志 澤田 心大 入部 百合絵 桂田 浩一 新田 恒雄
出版者
一般社団法人 電気学会
雑誌
電気学会論文誌C(電子・情報・システム部門誌) (ISSN:03854221)
巻号頁・発行日
vol.132, no.9, pp.1473-1480, 2012-09-01 (Released:2012-09-01)
参考文献数
21

In this paper, we propose a task estimation method based on multiple subspaces extracted from multi-modal information of image objects in visual scenes and spoken words in dialog appeared in the same task. The multiple subspaces are obtained by using latent semantic analysis (LSA). In the proposed method, a task vector composed of spoken words and the frequencies of image-object appearances are extracted first, and then similarities among the input task vector and reference sub-spaces of different tasks are compared. Experiments are conducted on the identification of game tasks. Experimental results show that the proposed method with multi-modal information outperforms the method in which only single modality of image or spoken dialog is applied. Moreover, the proposed method achieved accurate performance even if less spoken dialog is applied.
著者
福井 竜一 桂田 浩一 入部 百合絵 新田 恒雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.109, no.470, pp.513-518, 2010-03-08
参考文献数
11
被引用文献数
2

本報告では,Active Appearance Model (AAM)を利用した表情成分抽出と表情模倣を提案する.AAMは,顔の形状や輝度,照明状況などを複合的に表すパラメータ群からなる顔モデルである.パラメータを変動させることで様々な表情顔を合成できる.通常のAAMは複数人の顔画像から構築されるため,AAMパラメータには表情以外の顔成分も含まれるため,表情模倣には個人間で不変な表情モデルを取得する必要がある.そこで本報告では,まず特定の人物が様々な表情をみせたデータを収集し,これらを主成分分析することで表情成分を抽出する.次に,これを人共通の表情モデルとすることで表情模倣を実現し,試作システム構築とその評価結果を述べる.
著者
新田 恒雄 桂田 浩一 入部 百合絵 入部 百合絵
出版者
早稲田大学
雑誌
基盤研究(B)
巻号頁・発行日
2010-04-01

ビッグデータ中の音声ドキュメントから任意のキーワードを,実時間で検索する技術を開発した。研究実施にあたっては,(1)未知語を含む音声を高精度に音素列へ変換する技術,(2)曖昧性を含む音素列からキーワードを高速に検索する技術の二つに焦点をあてた。(1)では,双対空間で音素特徴を効率よく抽出すると共に,多層パーセプトロンで調音素性を抽出し,音素を高精度に識別する方式を開発した。(2)では,接尾辞配列に基づき反復深化探索を行う方式をベースに,調音素性間の距離計算を用いた連続DP,およびキーワード分割アルゴリズムを実装することで,検索精度,検索速度,記憶容量の三つの課題を同時に克服できることを示した。