著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
山尾 元陽 平田 里佳 入部 百合絵 深井 健大郎 桂田 浩一 新田 恒雄
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回全国大会(2020)
巻号頁・発行日
pp.4L3OS1504, 2020 (Released:2020-06-19)

近年,脳波を用いて機械を操作するBCI(Brain Computer Interface)の研究が盛んに行われている.しかし,音声想起の認識に関する効果的な方法は確立していない.本報告では,利用者への負担が少ない非侵襲的な方法で,頭皮から脳波(Electroencephalogram ; EEG)信号を取得し,脳活動を分析する.また分析結果をもとに,音声想起(speech-imagery) 時の脳波から単語を認識することを目指す.本稿では7名分の脳波を用いた10数字単語想起に対する実験結果を報告する.認識実験ではRandom Forestを使用し,数字を想起した脳波信号から10数字の単語認識を行った.認識に使用する特徴量はゼロ交差率,パワースペクトルエントロピー,二乗平均平方根,尖度,線スペクトル,移動平均である.結果として,パワースペクトルエントロピーと尖度を用いた場合の正解率が高いことが明らかとなった.それらの特徴量を用いた結果,正解率(被験者平均)82.6%を得ることができた.想起時脳波信号を用いた単語認識には,これらの特徴量を用いることが有効であることが示された.
著者
神尾 広幸 雨宮 美香 内山 ありさ 松浦 博 新田 恒雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.120, pp.29-34, 1995-12-14

本稿では、マルチモーダルインタフェースの作成と評価を容易に行うツールMuse (ultimodal Userinterface?design Support Edito)について述べる。MuseではUI?objectを画面上に配遣することでUIの外観を設計し、UI?objectの機能・情報設定やリンクの設定を行うことで動作の設計を行う。Museでは、入力手段としてタッチパネルによるポインティング入力、音声入力、画面上に描かれた文字を認識する文字入力を、また出力手段として静止画とアニメーションの表示、録音音声の出力、規則合成の出力という、マルチモーダル入出力機能を備えている。Museでは、これらの機能すべでをGUIによって取り扱うことができる。This paper describes a Multimodal User-interface-design Support Editor (Muse) that reduces the designing and evaluating hours of multimodal user intarface. A developer can design a card's appearance by putting UI-objects on a screen, and construct scenarios by setting functions and/or messages and linking UI-objects to other UI-objects or screen. Muse equips multiple input channels of speech, pointing, and hand writing, as well as multiple output channels of picture, animation, audio, and text-to-speech. These multimodal functionalities can be implemented by using GUI on Muse.
著者
谷口 忠大 岩橋 直人 新田 恒雄 岡田 浩之 長井 隆行
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第25回 (2011)
巻号頁・発行日
pp.2B2OS22a1, 2011 (Released:2018-07-30)

ロボティクス,音声言語,画像研究を含むマルチモーダルインタラクション研究の発展に伴い,自律ロボットが人間と共生することを目標としつつ,記号過程を内包した人間知能構成論的理解を進める研究が始まっている.ロボットが人間や環境との相互作用を通して,コミュニケーションに必要な知識を発見・理解・学習・運用する過程の研究を計算論的に統合することは重要である.本発表では当該研究領域について概説する.
著者
新田 恒雄 松口 龍彦
出版者
一般社団法人日本土壌肥料学会
雑誌
日本土壌肥料學雜誌 (ISSN:00290610)
巻号頁・発行日
vol.59, no.2, pp.140-148, 1988-04-05

堆きゅう肥による作物根系および根圏微生物フロラの改善効果を活用した土壌病害制御の可能性、およびその機能を少量で発揮させるために考案した根圏局所施用法についてアズキ落葉病を対象にほ場試験で検討し、以下の結果をえた。1)アズキ落葉病発病ほ場において、きゅう肥、バーク堆肥、落葉病罹病残渣堆肥をそれぞれ10a当たり5tの割合ですき込み施用した結果、病原菌感染率の低下と生育の増大が認められ、供試したこれらの資材には落葉病抑制機能のあることを見出した。2)この機能を効率的に発現させる少量施用法を検討するため、小型ペーパーポット(直径3cm、長さ5cm)に土壌と堆きゅう肥の混合物(1:1 w/w、生重)を充てんし、それに播腫してほ場に埋め込む"根圏局所施用法"を、重度の落葉病発病ほ場であるアズキ連作ほ場で試みた。その結果、上記の各種堆きゅう肥充てん区では堆きゅう肥が施用されていないペーパーポット外部の土壌中でも根の発達が著しく旺盛となり、病原菌感染率も低下し、地上部生育の増大がえられた。病原菌感染率の低下は罹病残渣堆肥で大きかった。3)病土充てん区ではペーパーポット外部の根の糸状菌フロラは極めて単純であったが、堆きゅう肥充てん区では多様性に富み、しかも、ポット内部の根の糸状菌フロラと高い類似性を示すなど、幼苗期にポット内部で根に定着した糸状菌フロラが外部の根にも定着したと推定された。ポット外部の根の糸状菌フロラの多様性指数は、根重と正の、病原菌感染率」とは負の相関を示した。4)土壌の種類の異なる3箇所の農家ほ場で堆きゅう肥の根圏局所施用法を実施した結果でも、ほぼ同様の結果がえられた。これら農家ほ場は軽度の発病ほ場であり、根圏局所施用は発病程度にかかわらず有効であることが実証された。5)用いたきゅう肥、バーク堆肥および罹病残渣堆肥からは病原菌に対する拮抗菌が検出された。検出頻度および菌数は罹病残渣堆肥で比較的多く、罹病残渣は堆肥化することによって有効な拮抗菌資材になることが示された。6)本試験の根圏局所施用では堆きゅう肥の必要量は10a当たりわずか140kg程度に過ぎず、実用性の高い施用法であることを確認した。
著者
松口 龍彦 新田 恒雄
出版者
一般社団法人日本土壌肥料学会
雑誌
日本土壌肥料學雜誌 (ISSN:00290610)
巻号頁・発行日
vol.59, no.1, pp.1-11, 1988-02-05
被引用文献数
1

テンサイ、ジャガイモ、アズキ、春播コムギおよびダイズの連作ほ場において、きゅう肥、バーク堆肥それぞれ1.5t、3t、5t/10aの施用が作物の根群発達、根の菌糸態糸状菌フロラおよび各種微生物フロラに及ぼす影響を経年的に調べ、次の結果をえた。1)いずれの作物でも連作に伴い根群発達、根活力が低下し、その程度はジャガイモや春播コムギで小さく、テンサイ、アズキで大きかった。加えて、テンサイでは根腐病、アズキでは落葉病などの土壌病害も発生した。きゅう肥やバーク堆肥は施用量に応じて根活力の低下を軽減するとともに、土壌病害も抑制し、連作による減収を軽減した。2)連作3年目、5年目の生育中期に根の菌糸態糸状菌フロラを調べた結果、いずれの作物でも連作によってフロラが単純化し、その程度は連作障害の出にくいジャガイモや春播コムギよりも連作障害の出やすいテンサイやマメ類で著しかった。堆きゅう肥の施用は連作に伴うフロラの単純化を軽減し、フロラの多様性指数と根重とはおおむね正の相関を示した。3)生育初期の春播コムギとテンサイを対象に、非根圏土壌、根圏土壌および根の微生物フロラを希釈平板法により調べた結果、非根圏土壌の菌数にはきゅう肥施用の影響はみられなかったが、根圏土壌では施用量に伴って細菌、とくに色素耐性菌(グラム陰性細菌)が著しく増加した。根ではグラム陰性細菌ばかりでなく、放線菌も著しく増加した。4)堆きゅう肥施用量が多いほど土壌の交換性塩基、可給態リン酸、可給態窒素が増加する傾向がみられたが、交換性K以外は土壌診断基準値に比べて低かった。5)以上の結果から、輪作畑と同様、連作畑でも堆きゅう肥の施用は根圏の糸状菌フロラの多様化、色素耐性菌、放線菌などを増加させ、根群発達、根活力の増大、ひいては生育収量の向上をもたらしたと判断された。
著者
桂田 浩一 中村 有作 山田 真 山田 博文 小林 聡 新田 恒雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.11, pp.2681-2689, 2003-11-15
被引用文献数
17

本論文ではマルチモーダルインタラクション(MMI)記述言語XISLを提案する.XISLの目標は,(1) MMIで必要とされるモダリティの利用方法・対話の制御を記述可能にすること,(2)モダリティの拡張性を高めることである.これらを実現するために,XISLでは,(1) VoiceXML,SMILといった従来言語を参考に,モダリティの利用方法および対話制御の諸概念や命令を導入し,(2)入出力モダリティに関する記述に自由度を持たせている.本論文ではXISLの概略を説明するとともに,PC上に実装したXISLの実行システム,およびプロトタイプとして試作したオンラインショッピングアプリケーションについて述べる.またXISLを他の言語と比較することにより,XISLのMMI記述言語としての特徴を明らかにする.This paper provides a multimodal interaction (MMI) description languageXISL. XISL aims to be a language satisfying the following conditions: (1) it has enough power to describe MMI scenarios, (2) it has extensibility of input/output modalities. For this purpose, (1) XISL prepares a lot of commands and structures used in previous languages such as VoiceXMLand SMIL,and (2) XISL has flexibility of describing input/output modalities. In this paper, we outline the specification of XISL, and show its interpreter and an application implemented on PC. Moreover, we clarify advantages of XISL by comparing it with other MMI description languages.
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
神尾 広幸 松浦 博 正井 康之 新田 恒雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.8, pp.1429-1437, 1994-08-25
被引用文献数
31

本論文では,音声入出力を中心としたマルチモーダル対話システムMultiksDialについて述べる.このシステムは,入力手段に音声認識装置とタッチパネル,出力手段に音声規則合成装置とディスプレイを備え,入出力の双方をマルチモーダル化していることが特長である.また補助入力手段に光電センサを使用し,ユーザの状況を検知しながら操作ガイダンスを提示することによって,スムーズな対話を実現している.MultiksDial上に情報案内システムを構築し,ユーザインタフェースの操作性を評価する.入力手段の比較実験結果から,直接指示可能な音声入力は,階層的な指示を必要とするタッチ入力よりも速く操作を完了できること,また初心者では,操作ガイダンスを合成音声で提示することにより,スムーズな対話が行えることを示す.これらの事実から,対話チャネルのマルチモーダル化は,ユーザとシステムとの対話をより効率よく行うのに有効であることが確認された.
著者
木村 優志 入部 百合絵 桂田 浩一 新田 恒雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.5, pp.1356-1364, 2013-05-01
参考文献数
26

音声認識と合成を共通の調音特徴の時間変化モデルを用いて実現するシステムの開発を行っている.この方式は,音声から調音特徴を抽出することにより,調音特徴の時間変化を表現するHMMを構築する.本論文では音声合成に焦点をあて,HMMが生成する調音特徴系列を声道音響パラメータに変換した後,LSPディジタルフィルタで駆動音源と組み合わせて音声信号を得る方式を提案する.提案方式は,話者不変量である調音特徴の時間変化をHMMで表現するとともに,調音特徴から声道音響パラメータへの変換を特定の話者に対応したMLNで実現することにより,両者を独立モジュールとして実装するため,少量の音声試料で特定話者の音声を合成できる可能性がある.評価実験では,MOSテスト,及びスペクトルひずみから合成音の品質を評価し,提案手法の有効性を示す.
著者
谷口 忠大 岩橋 直人 新田 恒雄 岡田 浩之 長井 隆行
出版者
人工知能学会
雑誌
人工知能学会全国大会論文集 (ISSN:13479881)
巻号頁・発行日
vol.25, 2011

ロボティクス,音声言語,画像研究を含むマルチモーダルインタラクション研究の発展に伴い,自律ロボットが人間と共生することを目標としつつ,記号過程を内包した人間知能構成論的理解を進める研究が始まっている.ロボットが人間や環境との相互作用を通して,コミュニケーションに必要な知識を発見・理解・学習・運用する過程の研究を計算論的に統合することは重要である.本発表では当該研究領域について概説する.
著者
菊地 泰己 桂田 浩一 入部 百合絵 新田 恒雄
雑誌
研究報告ヒューマンコンピュータインタラクション(HCI)
巻号頁・発行日
vol.2013, no.7, pp.1-2, 2013-01-25

本論文では,一般的な Web ブラウザ上でマルチモーダル対話システムを可能にするための JavaScrip tライブラリ MMI.js を提案する. MMI.js は,逐次的,同時的,択一的なマルチモーダル入出力の制御,入出力のタイミング制御,エージェントによるプレゼンテーションの各機能をサポートしている. MMI.js の有用性を確認するために,本研究室で開発している英語の発音訓練ソフトにマルチモーダルインターフェースを組み込んだ.これにより複数の入出力手段を組み合わせた複雑な対話を容易に記述できることを確認した.This paper proposes a JavaScript library called "MMI.js" which enables us to use multiple modalities on web browsers. This library supports sequential multimodal inputs/outputs, simultaneous multimodal inputs/outputs, alternative multimodal inputs/outputs, synchronization of multimodal inputs/outputs and gestures given by the dialogue agents. To show usefulness of this library, we embedded multimodal interaction into a pronunciation training application for Japanese students. Through the development of this application, we confirmed the library makes it easy to describe combination of multiple inputs/outputs appearing in complicated interaction.
著者
菊地 泰己 桂田 浩一 入部 百合絵 新田 恒雄
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.7, pp.1-2, 2013-01-25

本論文では,一般的な Web ブラウザ上でマルチモーダル対話システムを可能にするための JavaScrip tライブラリ MMI.js を提案する. MMI.js は,逐次的,同時的,択一的なマルチモーダル入出力の制御,入出力のタイミング制御,エージェントによるプレゼンテーションの各機能をサポートしている. MMI.js の有用性を確認するために,本研究室で開発している英語の発音訓練ソフトにマルチモーダルインターフェースを組み込んだ.これにより複数の入出力手段を組み合わせた複雑な対話を容易に記述できることを確認した.This paper proposes a JavaScript library called "MMI.js" which enables us to use multiple modalities on web browsers. This library supports sequential multimodal inputs/outputs, simultaneous multimodal inputs/outputs, alternative multimodal inputs/outputs, synchronization of multimodal inputs/outputs and gestures given by the dialogue agents. To show usefulness of this library, we embedded multimodal interaction into a pronunciation training application for Japanese students. Through the development of this application, we confirmed the library makes it easy to describe combination of multiple inputs/outputs appearing in complicated interaction.
著者
木村 優志 澤田 心大 入部 百合絵 桂田 浩一 新田 恒雄
出版者
一般社団法人 電気学会
雑誌
電気学会論文誌C(電子・情報・システム部門誌) (ISSN:03854221)
巻号頁・発行日
vol.132, no.9, pp.1473-1480, 2012-09-01 (Released:2012-09-01)
参考文献数
21

In this paper, we propose a task estimation method based on multiple subspaces extracted from multi-modal information of image objects in visual scenes and spoken words in dialog appeared in the same task. The multiple subspaces are obtained by using latent semantic analysis (LSA). In the proposed method, a task vector composed of spoken words and the frequencies of image-object appearances are extracted first, and then similarities among the input task vector and reference sub-spaces of different tasks are compared. Experiments are conducted on the identification of game tasks. Experimental results show that the proposed method with multi-modal information outperforms the method in which only single modality of image or spoken dialog is applied. Moreover, the proposed method achieved accurate performance even if less spoken dialog is applied.
著者
福井 竜一 桂田 浩一 入部 百合絵 新田 恒雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.109, no.470, pp.513-518, 2010-03-08
参考文献数
11
被引用文献数
2

本報告では,Active Appearance Model (AAM)を利用した表情成分抽出と表情模倣を提案する.AAMは,顔の形状や輝度,照明状況などを複合的に表すパラメータ群からなる顔モデルである.パラメータを変動させることで様々な表情顔を合成できる.通常のAAMは複数人の顔画像から構築されるため,AAMパラメータには表情以外の顔成分も含まれるため,表情模倣には個人間で不変な表情モデルを取得する必要がある.そこで本報告では,まず特定の人物が様々な表情をみせたデータを収集し,これらを主成分分析することで表情成分を抽出する.次に,これを人共通の表情モデルとすることで表情模倣を実現し,試作システム構築とその評価結果を述べる.
著者
新田 恒雄 桂田 浩一 入部 百合絵 入部 百合絵
出版者
早稲田大学
雑誌
基盤研究(B)
巻号頁・発行日
2010-04-01

ビッグデータ中の音声ドキュメントから任意のキーワードを,実時間で検索する技術を開発した。研究実施にあたっては,(1)未知語を含む音声を高精度に音素列へ変換する技術,(2)曖昧性を含む音素列からキーワードを高速に検索する技術の二つに焦点をあてた。(1)では,双対空間で音素特徴を効率よく抽出すると共に,多層パーセプトロンで調音素性を抽出し,音素を高精度に識別する方式を開発した。(2)では,接尾辞配列に基づき反復深化探索を行う方式をベースに,調音素性間の距離計算を用いた連続DP,およびキーワード分割アルゴリズムを実装することで,検索精度,検索速度,記憶容量の三つの課題を同時に克服できることを示した。
著者
田口 亮 岩橋 直人 船越 孝太郎 中野 幹生 能勢 隆 新田 恒雄
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.25, no.4, pp.549-559, 2010 (Released:2010-06-30)
参考文献数
18
被引用文献数
2 2

This paper proposes a method for the unsupervised learning of lexicons from pairs of a spoken utterance and an object as its meaning under the condition that any priori linguistic knowledge other than acoustic models of Japanese phonemes is not used. The main problems are the word segmentation of spoken utterances and the learning of the phoneme sequences of the words. To obtain a lexicon, a statistical model, which represents the joint probability of an utterance and an object, is learned based on the minimum description length (MDL) principle. The model consists of three parts: a word list in which each word is represented by a phoneme sequence, a word-bigram model, and a word-meaning model. Through alternate learning processes of these parts, acoustically, grammatically, and semantically appropriate units of phoneme sequences that cover all utterances are acquired as words. Experimental results show that our model can acquire phoneme sequences of object words with about 83.6% accuracy.
著者
原 義幸 新田 恒雄 小林 賢一郎
雑誌
全国大会講演論文集
巻号頁・発行日
vol.45, pp.329-330, 1992-09-28

近年、電子メールの読み上げのように、漢字かな混じり文を音声に変換する「文音声合成(Text-to-Speech:以下TTSと略す)」技術利用の要求が高まってきている。このような背景のもと筆者らは、先にプラストラム方式を用いた文音声合成ボードの試作について報告した。一方、現今のワークステーション(WS)は、処理能力が向上し(数十~数百MIPS)、同時に、オーディオデバイス(CODEC,スピーカ)を標準で塔載する機種が増えつつある。このようなWSを用いると、専用ハードウェアなしにソフトウェアのみでTTSを実行できる。しかし、サーバ/クライアント、あるいはマルチタスク処理環境のもとでは、TTSの実時間処理が困難となる場合を生ずる。こうした問題に対処するため、処理時間の設定が可能なTTSソフトをWS(AS4075)上の構築したので、概要を述べる。