著者
越塚 毅 大村 英史 桂田 浩一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.39, pp.1-6, 2021-02-24

音声変換は,入力された音声に対して言語情報を保持しつつ,話者性などの非言語情報のみを変換する技術である.一般的に,音声から話者性を除去するEncoderと,別話者の情報を加えるDecoderから構成されるシステムが多い.本稿では,事前学習した vq-wav2vecをEncoderに用いたボコーダフリーのAny-to-Many音声変換モデルを提案する.提案モデルでは Encoder の事前学習に加えて,RNN_MS と同様の構造を持つDecoderも事前学習することによって,少量の学習データからの音声変換を実現している.このように Encoder および Decoderを事前学習することにより学習データ量を削減する方法は既に提案されているが,Any-to-Many音声変換を対象としている点,およびDecoderの事前学習を音声変換タスクによって行う点が異なる.音声変換の精度を評価したところ,良好な音声変換精度が得られることが確認できた.また,既に学習済みのターゲット話者に対する変換精度を損なうことなく新たなターゲット話者を追加できることが確認できた.
著者
山尾 元陽 平田 里佳 入部 百合絵 深井 健大郎 桂田 浩一 新田 恒雄
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第34回全国大会(2020)
巻号頁・発行日
pp.4L3OS1504, 2020 (Released:2020-06-19)

近年,脳波を用いて機械を操作するBCI(Brain Computer Interface)の研究が盛んに行われている.しかし,音声想起の認識に関する効果的な方法は確立していない.本報告では,利用者への負担が少ない非侵襲的な方法で,頭皮から脳波(Electroencephalogram ; EEG)信号を取得し,脳活動を分析する.また分析結果をもとに,音声想起(speech-imagery) 時の脳波から単語を認識することを目指す.本稿では7名分の脳波を用いた10数字単語想起に対する実験結果を報告する.認識実験ではRandom Forestを使用し,数字を想起した脳波信号から10数字の単語認識を行った.認識に使用する特徴量はゼロ交差率,パワースペクトルエントロピー,二乗平均平方根,尖度,線スペクトル,移動平均である.結果として,パワースペクトルエントロピーと尖度を用いた場合の正解率が高いことが明らかとなった.それらの特徴量を用いた結果,正解率(被験者平均)82.6%を得ることができた.想起時脳波信号を用いた単語認識には,これらの特徴量を用いることが有効であることが示された.
著者
三浦 温樹 澤田 隼 桂田 浩一 大村 英史
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第37回 (2023) (ISSN:27587347)
巻号頁・発行日
pp.4T2GS1003, 2023 (Released:2023-07-10)

昨今のコロナ禍の影響により,オンラインや動画による授業を受ける頻度が急激に高まった.オンラインや動画による授業は場所を選ばずに受けられるため,自室などの誘惑の多い環境で受けることが多い.このような環境下では,ついスマートフォンで通知を確認したり,部屋にある授業と関係のない本や漫画を手に取ってしまったりなど,授業への集中力が欠如しがちになる.この問題を解決するために,本研究では駄洒落を用いて授業に集中させるシステムを提案する.駄洒落は言葉遊びの一つで,その楽しさやおかしさから聴取者の注意を引く.この機能を利用し,提案システムでは授業における重要な単語から駄洒落を生成し,ユーザの注意を授業動画に引きつけ集中力を向上させることを目指す.提案システムの検証実験により集中に関する一定の効果が得られたことを確認した.
著者
小椋 裕太 大村 英史 東条 敏 桂田 浩一
雑誌
研究報告エンタテインメントコンピューティング(EC) (ISSN:21888914)
巻号頁・発行日
vol.2021-EC-59, no.34, pp.1-8, 2021-03-09

認知的音楽理論は,音楽を「聴く側」の認知過程を踏まえた音楽の分析理論である.その一つである Generative Syntax Model (GSM) は,和声進行に関する文脈自由文法を定義することで,和声進行における期待-実現の構造を階層的に表現できることを示した.しかし,GSM をはじめとする従来の認知的音楽理論は楽曲聴取後の認知構造のみを表現しており,楽曲聴取中の認知構造である音楽的期待については議論されていない.しかし,楽曲聴取中の期待の逸脱や実現こそ音楽の意味である.そこで,本研究では楽曲途中の認知構造の表現を行うために,GSM を確率文脈自由文法に拡張する.これにより,漸進的構造解析を行うことが可能になる.このモデルを実装した和声解析システムを用い,ジャズ楽曲の和声進行の解析を行った.解析結果から,提案モデルが和声進行における楽曲途中の解釈の多様性や,楽曲における意外性の生じる位置を示唆していることが分かった.
著者
桂田 浩一 中村 有作 山田 真 山田 博文 小林 聡 新田 恒雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.11, pp.2681-2689, 2003-11-15
被引用文献数
17

本論文ではマルチモーダルインタラクション(MMI)記述言語XISLを提案する.XISLの目標は,(1) MMIで必要とされるモダリティの利用方法・対話の制御を記述可能にすること,(2)モダリティの拡張性を高めることである.これらを実現するために,XISLでは,(1) VoiceXML,SMILといった従来言語を参考に,モダリティの利用方法および対話制御の諸概念や命令を導入し,(2)入出力モダリティに関する記述に自由度を持たせている.本論文ではXISLの概略を説明するとともに,PC上に実装したXISLの実行システム,およびプロトタイプとして試作したオンラインショッピングアプリケーションについて述べる.またXISLを他の言語と比較することにより,XISLのMMI記述言語としての特徴を明らかにする.This paper provides a multimodal interaction (MMI) description languageXISL. XISL aims to be a language satisfying the following conditions: (1) it has enough power to describe MMI scenarios, (2) it has extensibility of input/output modalities. For this purpose, (1) XISL prepares a lot of commands and structures used in previous languages such as VoiceXMLand SMIL,and (2) XISL has flexibility of describing input/output modalities. In this paper, we outline the specification of XISL, and show its interpreter and an application implemented on PC. Moreover, we clarify advantages of XISL by comparing it with other MMI description languages.
著者
桂田 浩一
出版者
社団法人人工知能学会
雑誌
人工知能学会誌 (ISSN:09128085)
巻号頁・発行日
vol.15, no.6, 2000-11-01

知識ベースの変換技術は, 動的に変化し得る現実世界を知識ベースシステムにおいて取り扱う際の, 重要な要素技術である.本論文は, 知識ベース中の例外に着目した合理的な知識ベースの変換法を提案するもので, 全5章から構成される.1章の「緒論」に続き, 2章の「非単調論理に基づいた知識ベースの変換」では, 本論文で用いる"通常ルール"(常に結論を導くルール)と"デフォルトルール"(例外に関して結論を導かないルール)からなるデフォルト論理の部分体系について述べるとともに, 従来の知識ベース変換法を紹介し, それらの手法が例外に着目したものでないことを指摘している.3章の「矛盾に基づく知識コンバージョン」では, 例外によって矛盾が引き起こされた場合に, 通常ルールをデフォルトルールに変換し, 矛盾の原因となる例外に関する結論だけを導かなくすることによって矛盾を解消するための条件を示し, 変換のアルゴリズムを提案している.4章の「知識の例外に関する観点変更」では, 例外の多いデフォルトルールについて"例外"と"非例外"の捉え方を逆転すること, すなわち, より例外の少ないデフォルトルールに変換することによって, 例外に関連する通常ルールを減少させる手法を提案し, その効果を実験的に示している.5章の「結論」では本論文で得られた結果を総括するとともに今後の課題を論じている.
著者
木村 優志 入部 百合絵 桂田 浩一 新田 恒雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.96, no.5, pp.1356-1364, 2013-05-01
参考文献数
26

音声認識と合成を共通の調音特徴の時間変化モデルを用いて実現するシステムの開発を行っている.この方式は,音声から調音特徴を抽出することにより,調音特徴の時間変化を表現するHMMを構築する.本論文では音声合成に焦点をあて,HMMが生成する調音特徴系列を声道音響パラメータに変換した後,LSPディジタルフィルタで駆動音源と組み合わせて音声信号を得る方式を提案する.提案方式は,話者不変量である調音特徴の時間変化をHMMで表現するとともに,調音特徴から声道音響パラメータへの変換を特定の話者に対応したMLNで実現することにより,両者を独立モジュールとして実装するため,少量の音声試料で特定話者の音声を合成できる可能性がある.評価実験では,MOSテスト,及びスペクトルひずみから合成音の品質を評価し,提案手法の有効性を示す.
著者
菊地 泰己 桂田 浩一 入部 百合絵 新田 恒雄
雑誌
研究報告ヒューマンコンピュータインタラクション(HCI)
巻号頁・発行日
vol.2013, no.7, pp.1-2, 2013-01-25

本論文では,一般的な Web ブラウザ上でマルチモーダル対話システムを可能にするための JavaScrip tライブラリ MMI.js を提案する. MMI.js は,逐次的,同時的,択一的なマルチモーダル入出力の制御,入出力のタイミング制御,エージェントによるプレゼンテーションの各機能をサポートしている. MMI.js の有用性を確認するために,本研究室で開発している英語の発音訓練ソフトにマルチモーダルインターフェースを組み込んだ.これにより複数の入出力手段を組み合わせた複雑な対話を容易に記述できることを確認した.This paper proposes a JavaScript library called "MMI.js" which enables us to use multiple modalities on web browsers. This library supports sequential multimodal inputs/outputs, simultaneous multimodal inputs/outputs, alternative multimodal inputs/outputs, synchronization of multimodal inputs/outputs and gestures given by the dialogue agents. To show usefulness of this library, we embedded multimodal interaction into a pronunciation training application for Japanese students. Through the development of this application, we confirmed the library makes it easy to describe combination of multiple inputs/outputs appearing in complicated interaction.
著者
菊地 泰己 桂田 浩一 入部 百合絵 新田 恒雄
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.7, pp.1-2, 2013-01-25

本論文では,一般的な Web ブラウザ上でマルチモーダル対話システムを可能にするための JavaScrip tライブラリ MMI.js を提案する. MMI.js は,逐次的,同時的,択一的なマルチモーダル入出力の制御,入出力のタイミング制御,エージェントによるプレゼンテーションの各機能をサポートしている. MMI.js の有用性を確認するために,本研究室で開発している英語の発音訓練ソフトにマルチモーダルインターフェースを組み込んだ.これにより複数の入出力手段を組み合わせた複雑な対話を容易に記述できることを確認した.This paper proposes a JavaScript library called "MMI.js" which enables us to use multiple modalities on web browsers. This library supports sequential multimodal inputs/outputs, simultaneous multimodal inputs/outputs, alternative multimodal inputs/outputs, synchronization of multimodal inputs/outputs and gestures given by the dialogue agents. To show usefulness of this library, we embedded multimodal interaction into a pronunciation training application for Japanese students. Through the development of this application, we confirmed the library makes it easy to describe combination of multiple inputs/outputs appearing in complicated interaction.
著者
木村 優志 澤田 心大 入部 百合絵 桂田 浩一 新田 恒雄
出版者
一般社団法人 電気学会
雑誌
電気学会論文誌C(電子・情報・システム部門誌) (ISSN:03854221)
巻号頁・発行日
vol.132, no.9, pp.1473-1480, 2012-09-01 (Released:2012-09-01)
参考文献数
21

In this paper, we propose a task estimation method based on multiple subspaces extracted from multi-modal information of image objects in visual scenes and spoken words in dialog appeared in the same task. The multiple subspaces are obtained by using latent semantic analysis (LSA). In the proposed method, a task vector composed of spoken words and the frequencies of image-object appearances are extracted first, and then similarities among the input task vector and reference sub-spaces of different tasks are compared. Experiments are conducted on the identification of game tasks. Experimental results show that the proposed method with multi-modal information outperforms the method in which only single modality of image or spoken dialog is applied. Moreover, the proposed method achieved accurate performance even if less spoken dialog is applied.
著者
福井 竜一 桂田 浩一 入部 百合絵 新田 恒雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.109, no.470, pp.513-518, 2010-03-08
参考文献数
11
被引用文献数
2

本報告では,Active Appearance Model (AAM)を利用した表情成分抽出と表情模倣を提案する.AAMは,顔の形状や輝度,照明状況などを複合的に表すパラメータ群からなる顔モデルである.パラメータを変動させることで様々な表情顔を合成できる.通常のAAMは複数人の顔画像から構築されるため,AAMパラメータには表情以外の顔成分も含まれるため,表情模倣には個人間で不変な表情モデルを取得する必要がある.そこで本報告では,まず特定の人物が様々な表情をみせたデータを収集し,これらを主成分分析することで表情成分を抽出する.次に,これを人共通の表情モデルとすることで表情模倣を実現し,試作システム構築とその評価結果を述べる.
著者
新田 恒雄 桂田 浩一 入部 百合絵 入部 百合絵
出版者
早稲田大学
雑誌
基盤研究(B)
巻号頁・発行日
2010-04-01

ビッグデータ中の音声ドキュメントから任意のキーワードを,実時間で検索する技術を開発した。研究実施にあたっては,(1)未知語を含む音声を高精度に音素列へ変換する技術,(2)曖昧性を含む音素列からキーワードを高速に検索する技術の二つに焦点をあてた。(1)では,双対空間で音素特徴を効率よく抽出すると共に,多層パーセプトロンで調音素性を抽出し,音素を高精度に識別する方式を開発した。(2)では,接尾辞配列に基づき反復深化探索を行う方式をベースに,調音素性間の距離計算を用いた連続DP,およびキーワード分割アルゴリズムを実装することで,検索精度,検索速度,記憶容量の三つの課題を同時に克服できることを示した。