著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
新田 克己 長谷川 修 秋葉 友良 神嶌 敏弘 栗田 多喜夫 速水 悟 伊藤 克亘 石塚 満 土肥 浩 奥村 学
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.80, no.8, pp.2081-2087, 1997-08-25
被引用文献数
17

論争支援マルチモーダル実験システムMrBengoは, 法廷における論争をシミュレートする知識ペースシステムに, 顔認識, 表情合成, 音声認識, 音声合成, WWWブラウザなどのモジュールを結合したマルチモーダル実験システムである. このシステムは, 原告(検察官), 被告側弁護士, 裁判官という仮想的な三つのエージェントからなっている. ユーザは被告側弁護士に音声で指示を出して, 検察官と法廷論争を行い, 論争が終了すると裁判官が判決を下す. 論争の状況に応じて, エージェントの表情が変化するので, ユーザはそれを見ながら論争の戦略をたてることができる.
著者
勅使河原 三保子 伊藤 克亘 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.105, no.291, pp.39-44, 2005-09-09
被引用文献数
1

本研究では日本のアニメにおける善玉と悪玉の音声の比較を行った.不快感情を表すことが多い悪玉の声は, 不快感情が持つ音声的特徴を反映するという仮説が立てられ, Laverの声質記述の枠組みを用いた受聴による分析により, 悪玉の声には咽頭部分の狭めまたは拡張が聴覚的に認められた.咽頭部分の狭めやそれに伴う調音的特徴は, 不快感情を表す音声に予測された特徴であった.日本語母語話者を対象とした聴取実験において, 咽頭部分の形状について対比させた刺激音を用い, 咽頭部分の形状が人物の印象(外見, 性格, 感情)を左右することが確認された.
著者
廣近理希 伊藤克亘
出版者
一般社団法人情報処理学会
雑誌
全国大会講演論文集
巻号頁・発行日
vol.2012, no.1, pp.621-623, 2012-03-06

インターネットの普及と発展により、IPサイマルラジオ放送を通してのAM/FMラジオ放送の受信が定着しつつあるが、インターネットの特色を活かしたコンテンツがあまり見られない。そこで、ラジオ放送から連続音声認識システムを用いてキーワードを抽出し、商品や話題といった実時間情報を表示するシステムの構築を行った。ラジオ音源の音声認識の問題点として、BGMや背景雑音、発声が認識性能を悪化させている。そこで、定常雑音を周波数領域で減算するスペクトル減算法での音声強調を、ラジオ音源や出演者に適応させて認識率向上の解決策とした。その認識結果から、検索キーワードとなる単語を抜き出し、放送中話題となった製品やキーワードとして、検索エンジン用に索引付けを行った。
著者
尾崎 晃 草川 高志 西脇 由博 マルタ ルーカス 宮島 千代美 西野 隆典 北岡 教英 伊藤 克亘 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.93, no.10, pp.2118-2128, 2010-10-01
被引用文献数
3

人間の行動を真に理解するためには,行動を記録すると同時に心的状態を知る術も同時に記録する必要がある.更にこのようなデータが大量に必要となる.そのような研究のための第一歩として,自動車実走行環境における自動車挙動を含む運転操作信号,生体信号などのデータを同期測定・記録する機器を作成した.様々な運転環境の負荷を調査するため,平静の運転をはじめ,標識や看板などを見る,イヤホンを通じて英数字を聞いて発音する,携帯電話でナビゲータと会話をする,そしてコンピュータと音声対話を行う4種類のタスクを自動車走行中に実施している.運転行動を測定するため,アクセルペダル踏力,ブレーキペダル踏力,ステアリング操作角,走行位置,車速,加速度,車間距離を収録する.また生体信号を測定するため,心拍数,皮膚電位,発汗量のセンサを搭載している.運転手と交通状況は,四つのビデオカメラと全方位カメラによって動画として記録する.運転手とナビゲータの声は,携帯電話と車内に配置されたマイクロホンで計12チャネル録音する.これらのマルチモーダルデータは同期して収録できる,2008年末までに,357名の被験者を募集して実験走行を行った.走行環境,運転行動,発話内容などに応じて詳細なラベルを定義し,実験後に運転データへ手作業で付与した.更に,このデータベースを用いた研究例を挙げ,データベース活用による今後の人間行動理解の可能性を示した.
著者
後藤 真孝 伊藤 克亘 速水 悟
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2330-2340, 2000-11-25
被引用文献数
29

本論文では, 代表的ないいよどみ現象である有声休止(音節の引き延ばしも含む)を自動的に検出する手法を提案する.有声休止は音声対話において発語権の保持等の大切な役割を果たしており, その検出は音声対話システムを実現する上で重要である.従来, サブワード単位に基づく連続音声認識やワードスポッティングの枠組みで有声休止に対処する研究事例はあったが, いいよどみ現象として個々に検出しておらず, その役割を把握して適切に扱うことはできなかった.本手法は, 有声休止中は調音器官の変化が小さいことに着目し, 音韻的に変化が少ない持続した有声音(有声休止音)を検出する.その際, ボトムアップな信号処理によって, 有声休止音がもつ二つの音響的特徴(基本周波数の変動が小さくスペクトル包絡の変形が小さい)を検出することで, トップダウン情報を使わない言語非依存な検出を可能とする.本手法をリアルタイムに実行するシステムを実装し, 有声休止箇所のマーク付け作業を施した日本語の音声対話コーパスを用意して, 評価実験を行った.その結果, 30名の話者の自然発話に対し, F値0.726の精度で有声休止を検出できることが確認された.
著者
西野 隆典 井上 直哉 伊藤 克亘 武田 一哉
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.63, no.1, pp.3-12, 2006-12-25 (Released:2017-06-02)
参考文献数
14

バイノーラル信号は,頭部や耳介などによる音波の反射や回折の影響を含んだ信号である。バイノーラル信号による音源方向推定が実現できれば,あらゆる音源方向を識別するロボット聴覚への応用が可能となる。本論文では,バイノーラル信号を用いた音源方向推定手法の提案,及び評価を行う。両耳間音圧差の包絡のケプストラムを単一ガウス分布で近似した音源方向推定モデルを構築し,残響時間が異なる環境において計測された両耳室内インパルス応答を用いて,提案手法が前後左右だけでなく,上下方向の識別について評価を行った。実験結果より,本提案手法は,異なる残響時間,及び上下方向に対応した音源定位手法であることが示された。
著者
森田花野 小泉悠馬 伊藤克亘
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.267-268, 2013-03-06

本稿では、楽譜情報を用いて楽曲のギターパートの演奏難易度を推定する手法を提案する。バンド演奏で既存楽曲を再現する際、特に初心者にとって、前もって楽曲の難しさを判断するのは困難である。そこで、本研究では楽曲の難易度を数値で表現する難易度スコアを提案する。スコア算出には教則本のフレーズを利用する。それらの難易度を教則本音源の演奏の揺らぎにより定量化する。次にそれら難易度情報と主観評価によって得た代表フレーズ全体の難易度を組み合わせて各フレーズの難易度値を推定する。楽曲の難易度推定時には、楽譜情報を入力し類似度の高いフレーズを学習データから選択し、それらフレーズに予め付与された難易度値を用いてスコアを算出する。評価は提案法とバンド経験者による主観評価結果を比較することで行う。
著者
田中 大貴 伊藤 克亘
雑誌
第79回全国大会講演論文集
巻号頁・発行日
vol.2017, no.1, pp.121-122, 2017-03-16

現在, 電子オルガン譜が少ない事から, 演奏者は好きな曲を弾いて練習できず, 練習意欲が損なわれてしまっている. 本論文では, 電子オルガン演奏者の練習意欲向上のために総譜から電子オルガン譜へ自動編曲するシステムの提案を行う. 音楽はメロディ・ハーモニー・ベースラインなどから構成されている. そこで, これらの要素を総譜から探すために, 旋律のクラスタリングを行う. 分類に考慮する特徴として, 発音時刻・発音持続パターン・音高の動き・和声を元にする. 分類されたグループから楽曲のイメージを保つのに重要なメロディ・ハーモニー・ベースラインを選択し, 三段組の楽譜を作成する. 最後に, 電子オルガンで演奏できる範囲に修正を行う. 評価は視聴評価と楽譜を用いた客観評価を行う.
著者
佐藤 航太 伊藤 克亘
雑誌
第79回全国大会講演論文集
巻号頁・発行日
vol.2017, no.1, pp.109-110, 2017-03-16

本研究では,楽譜上のフィルインが難しくアレンジがうまくできない初心者の演奏支援のために楽譜に記載されたフィルインを変換する手法を提案する.フィルインはフレーズの繋ぎなどに挿入され,他パートへ合図を出すなどの役割を持っている.従来研究においてドラムパターンの置換は聴取者の好みに合わせて行われていたが,本研究では演奏者の視点に立った変換を行った. GTTMの理論を参考にドラムのフィルインにおいて拍節構造を表す構造木を作成した.この構造木は相対的な重要度に応じて階層構造が構築されており、これを基にフィルインの簡易化を行った.小規模な被験者グループでの評価実験により,システムを用いて行った変換の有効性を示せた.
著者
マルタ ルーカス 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.73, pp.19-24, 2006-07-07

運転者のブレーキ操作や発話内容から,運転中の危険な状況を検出する手法について検討した.ブレーキに基づく検出では,ペダル踏力とその時間変化の2次元ヒストグラムを用いて,通常と分布が異なる箇所を検出した.発話に基づく検出では,危険な状況で発すると考えられる単語を音声の書き起こしテキストから検出した.CIAIR対話音声・運転行動信号コーパスのうち,人間と対話中のテータ438名分に対して,人手でビデオ映像と運転行動信号を確認しながら危険なシーンのラベル付けを行った結果,計25箇所の危険なシーンが見つかった.これらのうち,ブレーキ信号,あるいは発話内容に何らかの異常を伴うシーンがそれぞれ17箇所,11箇所存在した.ブレーキ,発話それぞれに基づいて検出を行った結果,80%の正解シーンを検出するために必要な誤検出数はブレーキで473シーン,発話で33シーンであった.また,Wozシステム,音声対話システムの対話中のデータについても同様の実験を行った.We introduce a method for automatically detecting potentially dangerous situations in motor vehicle traffic using driving behavior signals. Our proposed approach focuses on changes in a driver`s behavior, which we detect through brake pedal operation as well as driver speech. Experiments were performed using a large multimedia driving database obtained from the CIAIR project at Nagoya University. We analyzed data from 438 drivers who interacted verbally with a human operator. In eleven of the 25 situations we hand labeled as potentially hazardous, drivers uttered expletive words to express nagative feelings. In 17, sudden and intense compression of the brake pedal was observed. For the detection of 80% of these 17 scenes, the proposed method based on 2D-histograms of brake pressure and its dynamics also detected 473 false positives. As for the other eleven scenes, using our lexicographical speech feature-based method, a detection rate of 80% was achieved for 33 false alarms. We also present an analysis of data recorded while drivers interacted with a machine and a Wizard of Oz system.
著者
原 直 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.167-172, 2006-12-21
被引用文献数
5

実際の利用環境に近づけた被験者実験を行うために、WWW 経由でカスタマイズ可能な音声対話システム及びそのデータ収集システムを構築した。本システムのユーザは自分のPCに音声認識システムをインストールし利用する。不特定多数のユーザに対応するために、インターネット上に用意されたリモートサーバ上で各ユーザが本システムのカスタマイズすることが可能である。さらに、本システムを利用する各ユーザのPCで収録された音声データはインターネットを通してリモートサーバに送信される。本システムを利用することにより、複数のユーザによる実環境下における音声認識システム利用時データを収集することが可能になる。本論文では実際に本システムを使用したフィールドテストを行いデータ収集及び分析を行った。インターネット上に公開して2ヶ月間で59時間のデータが収集され、そのうち約5時間41分のデータ(11351個)が音声区間として検出されていた。認識実験の結果、検出された音声データからシステムに対して発話されていた音声データ4716発話を評価用データとした場合の単語正解率は66.0%であり、各ユーザ毎に教師無し MLLR 適応を行うことで単語正解率は70.5%に向上した。We developed a user customizable speech dialogue system and a framework for automatic speech data collection in field experiments over the Internet. Users can download and install the speech dialogue system onto their own PCs and customize the system on a remote server for their own use. The speech dara recorded on their PCs are transferred to the remote server through the Internet. The system enables us to collect speech data spoken by many users with wide variety of acoustic environments. During a two-month field test, we obtained 59 hours of recorded data including 5 hours and 41 minutes detected as speech, which corresponds to 11351 speech segments. The word correct rate for the 4716 speech utterances spoken to the dialogue system was 66.0%, which was improved to 70.5% after applying unsupervised MLLR for each user.
著者
塩出萌子 小泉悠馬 伊藤克亘
雑誌
第76回全国大会講演論文集
巻号頁・発行日
vol.2014, no.1, pp.495-496, 2014-03-11

長期アニメは、幅広い世代で認知度が高く、楽しまれている。視聴者は、そのような作品の各登場人物役の声優の演技や、性格や感情表現方法に固定概念を持つ。そのため、声優が交代した際、声質や表現方法などの差異が、視聴者に違和感を与え、番組離れの原因となる。本論文では、新声優の声を旧声優の声に変換する声質変換器の作成を目指す。変換対象は、同じ人物を演じている声優とし、目標話者(旧声優)の特徴量を元話者(新声優)の対応する特徴量と変換する。変換には、学習データとしてパラレルコーパスを用いる。しかし、声優を対象とするため、必ずしもパラレルデータが用意できるとは限らない。そこで、自由にデータを作成できる中間話者を定義し、元話者、目標話者それぞれとのパラレルデータ作成のため、同じ発話内容の音声データを中間話者で作成する。
著者
小泉 悠馬 伊藤 克亘
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J98-D, no.3, pp.492-500, 2015-03-01

連続励起振動楽器の演奏音の音量変化を,音量記号などに起因するベースラインの大局的変化であるダイナミックスと,発想記号などに起因する局所的変化であるアーティキュレーションに分解する手法を提案する.ダイナミックスとアーティキュレーションの生成過程をそれぞれ和分プロセスと遷移型自己回帰モデルで表現し,遷移型線形動的システムを用いて音量軌跡を分解する.評価実験では,MIDIを用いて作成した人工データと,プロ奏者とアマチュア奏者の音量軌跡の分解実験を行った.人工データの分解実験では分解の標準絶対誤差が1.06dBであり,MIDIでのメゾピアノからメゾフォルテの音量差約4dBよりも小さい誤差で分解できることを確認した.また実演奏音の分解実験では,演奏技術による2要素のバリエーションやばらつきなどの演奏/習熟度解析が行えることが示唆された.
著者
嵯峨山 茂樹 伊藤 克亘 宇津呂 武仁 甲斐 充彦 小林 隆夫 下平 博 伝 康晴 徳田 恵一 中村 哲 西本 卓也 新田 恒雄 広瀬 啓吉 峯松 信明 森島 繁生 山下 洋一 山田 篤 李 晃伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション (ISSN:09135685)
巻号頁・発行日
vol.103, no.518, pp.73-78, 2003-12-12

擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
著者
河原 達也 住吉 貴志 李晃伸 武田 一哉 三村正人 伊藤彰則 伊藤 克亘 鹿野 清宏
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.100, pp.37-42, 2001-10-19
参考文献数
20
被引用文献数
24

連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.