著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
新田 克己 長谷川 修 秋葉 友良 神嶌 敏弘 栗田 多喜夫 速水 悟 伊藤 克亘 石塚 満 土肥 浩 奥村 学
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.80, no.8, pp.2081-2087, 1997-08-25
被引用文献数
17

論争支援マルチモーダル実験システムMrBengoは, 法廷における論争をシミュレートする知識ペースシステムに, 顔認識, 表情合成, 音声認識, 音声合成, WWWブラウザなどのモジュールを結合したマルチモーダル実験システムである. このシステムは, 原告(検察官), 被告側弁護士, 裁判官という仮想的な三つのエージェントからなっている. ユーザは被告側弁護士に音声で指示を出して, 検察官と法廷論争を行い, 論争が終了すると裁判官が判決を下す. 論争の状況に応じて, エージェントの表情が変化するので, ユーザはそれを見ながら論争の戦略をたてることができる.
著者
勅使河原 三保子 伊藤 克亘 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. TL, 思考と言語 (ISSN:09135685)
巻号頁・発行日
vol.105, no.291, pp.39-44, 2005-09-09
被引用文献数
1

本研究では日本のアニメにおける善玉と悪玉の音声の比較を行った.不快感情を表すことが多い悪玉の声は, 不快感情が持つ音声的特徴を反映するという仮説が立てられ, Laverの声質記述の枠組みを用いた受聴による分析により, 悪玉の声には咽頭部分の狭めまたは拡張が聴覚的に認められた.咽頭部分の狭めやそれに伴う調音的特徴は, 不快感情を表す音声に予測された特徴であった.日本語母語話者を対象とした聴取実験において, 咽頭部分の形状について対比させた刺激音を用い, 咽頭部分の形状が人物の印象(外見, 性格, 感情)を左右することが確認された.
著者
平山 健太郎 伊藤 克亘
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2012-MUS-94, no.16, pp.1-6, 2012-01-27

近年の日本のポピュラー音楽では,一つの声区のみで歌えないような高い音域を含む楽曲が数多く存在する.実際に一つの声区のみで歌おうとすると声が枯れてしまうという結果が多い.このような状況はしばしばカラオケで見受けられる.従来より,歌唱力の自動評価は様々な手法で行われてきたが,高音域の発声における発声状態の評価を行っているものは少ない.本研究では,基本周波数成分やフォルマント,倍音構造,残差スペクトルなどの特徴量から声区と発声状態のトレーニングデータを35次元で作成し,自動でユーザの音声データから高音域の発声評価を行うシステムを構築した.歌唱音声に対する音符単位の識別率は 93.18% であった.
著者
廣近理希 伊藤克亘
出版者
一般社団法人情報処理学会
雑誌
全国大会講演論文集
巻号頁・発行日
vol.2012, no.1, pp.621-623, 2012-03-06

インターネットの普及と発展により、IPサイマルラジオ放送を通してのAM/FMラジオ放送の受信が定着しつつあるが、インターネットの特色を活かしたコンテンツがあまり見られない。そこで、ラジオ放送から連続音声認識システムを用いてキーワードを抽出し、商品や話題といった実時間情報を表示するシステムの構築を行った。ラジオ音源の音声認識の問題点として、BGMや背景雑音、発声が認識性能を悪化させている。そこで、定常雑音を周波数領域で減算するスペクトル減算法での音声強調を、ラジオ音源や出演者に適応させて認識率向上の解決策とした。その認識結果から、検索キーワードとなる単語を抜き出し、放送中話題となった製品やキーワードとして、検索エンジン用に索引付けを行った。
著者
尾崎 晃 草川 高志 西脇 由博 マルタ ルーカス 宮島 千代美 西野 隆典 北岡 教英 伊藤 克亘 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.93, no.10, pp.2118-2128, 2010-10-01
被引用文献数
3

人間の行動を真に理解するためには,行動を記録すると同時に心的状態を知る術も同時に記録する必要がある.更にこのようなデータが大量に必要となる.そのような研究のための第一歩として,自動車実走行環境における自動車挙動を含む運転操作信号,生体信号などのデータを同期測定・記録する機器を作成した.様々な運転環境の負荷を調査するため,平静の運転をはじめ,標識や看板などを見る,イヤホンを通じて英数字を聞いて発音する,携帯電話でナビゲータと会話をする,そしてコンピュータと音声対話を行う4種類のタスクを自動車走行中に実施している.運転行動を測定するため,アクセルペダル踏力,ブレーキペダル踏力,ステアリング操作角,走行位置,車速,加速度,車間距離を収録する.また生体信号を測定するため,心拍数,皮膚電位,発汗量のセンサを搭載している.運転手と交通状況は,四つのビデオカメラと全方位カメラによって動画として記録する.運転手とナビゲータの声は,携帯電話と車内に配置されたマイクロホンで計12チャネル録音する.これらのマルチモーダルデータは同期して収録できる,2008年末までに,357名の被験者を募集して実験走行を行った.走行環境,運転行動,発話内容などに応じて詳細なラベルを定義し,実験後に運転データへ手作業で付与した.更に,このデータベースを用いた研究例を挙げ,データベース活用による今後の人間行動理解の可能性を示した.
著者
後藤 真孝 伊藤 克亘 速水 悟
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2330-2340, 2000-11-25
被引用文献数
29

本論文では, 代表的ないいよどみ現象である有声休止(音節の引き延ばしも含む)を自動的に検出する手法を提案する.有声休止は音声対話において発語権の保持等の大切な役割を果たしており, その検出は音声対話システムを実現する上で重要である.従来, サブワード単位に基づく連続音声認識やワードスポッティングの枠組みで有声休止に対処する研究事例はあったが, いいよどみ現象として個々に検出しておらず, その役割を把握して適切に扱うことはできなかった.本手法は, 有声休止中は調音器官の変化が小さいことに着目し, 音韻的に変化が少ない持続した有声音(有声休止音)を検出する.その際, ボトムアップな信号処理によって, 有声休止音がもつ二つの音響的特徴(基本周波数の変動が小さくスペクトル包絡の変形が小さい)を検出することで, トップダウン情報を使わない言語非依存な検出を可能とする.本手法をリアルタイムに実行するシステムを実装し, 有声休止箇所のマーク付け作業を施した日本語の音声対話コーパスを用意して, 評価実験を行った.その結果, 30名の話者の自然発話に対し, F値0.726の精度で有声休止を検出できることが確認された.
著者
山上泰志 伊藤克亘
雑誌
第76回全国大会講演論文集
巻号頁・発行日
vol.2014, no.1, pp.365-366, 2014-03-11

作曲を行う時、いきなり一曲を作り上げず、細かいメロディを思いつくたびに記録し、組み合わせてひとつの曲を作り上げる。メロディを記録する時、経験や知識があれば採譜や録音するのは容易だ。しかし初心者は採譜に時間がかかる上、楽譜の完成度も低い。また、録音した場合も、必要に応じて何度もメロディを聞き取ることになり余計な手間が掛かってしまう。これらは初心者が作曲を行う妨げとなっている。そこで本研究では、ギターの演奏動画を用いてユーザの個人差を考慮した楽譜を出力する自動採譜システムを開発した。本システムは認識部、採譜部の2つの項目からなる。認識部では、ギター演奏動画を用いることでバイモーダルな認識を、採譜部では、演奏ルールを用いることで認識部の誤検出の補正をそれぞれ行った。
著者
村井 亮介 伊藤 克亘
雑誌
第82回全国大会講演論文集
巻号頁・発行日
vol.2020, no.1, pp.337-338, 2020-02-20

娯楽の発展によって人々が歌う機会が増えてきた。カラオケの採点の登場などから上手に歌いたいと思う人が多いことも事実である。そこで本研究では裏声を出すことができ、音痴ではない男性を対象にした歌唱力向上メソッドを提案する。歌唱力は大きく分けて「音程」「リズム」「発声」と3つの要素に分けることができる。その中でも「発声」はカラオケの採点でもあまり重視されていない。そのことからJPOPの歌唱発声において必要不可欠であるミックスボイスの習得を目的とする。ミックスボイスは表声と裏声のコントロールが自由にできることが前提であることから、表声と裏声を上手に扱えるようになるための練習メソッドを考案し、メソッドに沿って練習を進めていく。メソッドごとの可否判定についてはスペクトル及びスペクトルグラムから判定できるようなシステムを提案する。
著者
田中 敏文 伊藤 克亘
雑誌
第82回全国大会講演論文集
巻号頁・発行日
vol.2020, no.1, pp.315-316, 2020-02-20

日本の伝統音楽の音階は、西洋音楽のオクターブ音階とは異なる。小泉文夫は20世紀半ばに世界各地の民族音楽を採集し、完全4度を枠組みとするテトラコルド音階が東アジア中心に広く分布することを発見した。さらにテトラコルドが積み重なるとオクターブ音階に変遷する傾向を確認した。能の謡の代表的な音階の一つであるヨワ吟は、上、中、下という完全4度間隔の核音とその中間音で構成され、典型的なテトラコルド音階である。著者は長年の能楽師としての経験から、ヨワ吟の音階にオクターブ音階に変遷する兆候を感知し、その一例として上で終止する時の実際の音高が流儀によって異なることをピッチ解析により検証した。
著者
山﨑 友介 伊藤 克亘
雑誌
第82回全国大会講演論文集
巻号頁・発行日
vol.2020, no.1, pp.375-376, 2020-02-20

端的に言うとカラオケ採点システムのサクソフォン版である。管楽器の上達の中で重要なコピーをする中で、音響的特徴量を用いてサクソフォンの練習音源を客観的評価するシステムを提案する。システムの流れは四段階からなり、サクソフォン特有の五つの特殊奏法の特徴を分析した上で、目標音源と練習音源を入力、二つの音源を音響的に分析し、客観的評価をする。本研究で扱う音響的特徴量は基本周波数の時間変化をグラフ化したf0軌跡、対数振幅スペクトル、スペクトログラムやウォーターフォールプロットである。これらの特徴量を用いて各特殊奏法の特徴の分析やできない原因の特定をし、原因に合わせた練習方法を提案する。
著者
森田花野 小泉悠馬 伊藤克亘
雑誌
第75回全国大会講演論文集
巻号頁・発行日
vol.2013, no.1, pp.267-268, 2013-03-06

本稿では、楽譜情報を用いて楽曲のギターパートの演奏難易度を推定する手法を提案する。バンド演奏で既存楽曲を再現する際、特に初心者にとって、前もって楽曲の難しさを判断するのは困難である。そこで、本研究では楽曲の難易度を数値で表現する難易度スコアを提案する。スコア算出には教則本のフレーズを利用する。それらの難易度を教則本音源の演奏の揺らぎにより定量化する。次にそれら難易度情報と主観評価によって得た代表フレーズ全体の難易度を組み合わせて各フレーズの難易度値を推定する。楽曲の難易度推定時には、楽譜情報を入力し類似度の高いフレーズを学習データから選択し、それらフレーズに予め付与された難易度値を用いてスコアを算出する。評価は提案法とバンド経験者による主観評価結果を比較することで行う。
著者
西野 隆典 井上 直哉 伊藤 克亘 武田 一哉
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.63, no.1, pp.3-12, 2006-12-25 (Released:2017-06-02)
参考文献数
14

バイノーラル信号は,頭部や耳介などによる音波の反射や回折の影響を含んだ信号である。バイノーラル信号による音源方向推定が実現できれば,あらゆる音源方向を識別するロボット聴覚への応用が可能となる。本論文では,バイノーラル信号を用いた音源方向推定手法の提案,及び評価を行う。両耳間音圧差の包絡のケプストラムを単一ガウス分布で近似した音源方向推定モデルを構築し,残響時間が異なる環境において計測された両耳室内インパルス応答を用いて,提案手法が前後左右だけでなく,上下方向の識別について評価を行った。実験結果より,本提案手法は,異なる残響時間,及び上下方向に対応した音源定位手法であることが示された。
著者
田中 大貴 伊藤 克亘
雑誌
第79回全国大会講演論文集
巻号頁・発行日
vol.2017, no.1, pp.121-122, 2017-03-16

現在, 電子オルガン譜が少ない事から, 演奏者は好きな曲を弾いて練習できず, 練習意欲が損なわれてしまっている. 本論文では, 電子オルガン演奏者の練習意欲向上のために総譜から電子オルガン譜へ自動編曲するシステムの提案を行う. 音楽はメロディ・ハーモニー・ベースラインなどから構成されている. そこで, これらの要素を総譜から探すために, 旋律のクラスタリングを行う. 分類に考慮する特徴として, 発音時刻・発音持続パターン・音高の動き・和声を元にする. 分類されたグループから楽曲のイメージを保つのに重要なメロディ・ハーモニー・ベースラインを選択し, 三段組の楽譜を作成する. 最後に, 電子オルガンで演奏できる範囲に修正を行う. 評価は視聴評価と楽譜を用いた客観評価を行う.
著者
佐藤 航太 伊藤 克亘
雑誌
第79回全国大会講演論文集
巻号頁・発行日
vol.2017, no.1, pp.109-110, 2017-03-16

本研究では,楽譜上のフィルインが難しくアレンジがうまくできない初心者の演奏支援のために楽譜に記載されたフィルインを変換する手法を提案する.フィルインはフレーズの繋ぎなどに挿入され,他パートへ合図を出すなどの役割を持っている.従来研究においてドラムパターンの置換は聴取者の好みに合わせて行われていたが,本研究では演奏者の視点に立った変換を行った. GTTMの理論を参考にドラムのフィルインにおいて拍節構造を表す構造木を作成した.この構造木は相対的な重要度に応じて階層構造が構築されており、これを基にフィルインの簡易化を行った.小規模な被験者グループでの評価実験により,システムを用いて行った変換の有効性を示せた.
著者
マルタ ルーカス 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.73, pp.19-24, 2006-07-07

運転者のブレーキ操作や発話内容から,運転中の危険な状況を検出する手法について検討した.ブレーキに基づく検出では,ペダル踏力とその時間変化の2次元ヒストグラムを用いて,通常と分布が異なる箇所を検出した.発話に基づく検出では,危険な状況で発すると考えられる単語を音声の書き起こしテキストから検出した.CIAIR対話音声・運転行動信号コーパスのうち,人間と対話中のテータ438名分に対して,人手でビデオ映像と運転行動信号を確認しながら危険なシーンのラベル付けを行った結果,計25箇所の危険なシーンが見つかった.これらのうち,ブレーキ信号,あるいは発話内容に何らかの異常を伴うシーンがそれぞれ17箇所,11箇所存在した.ブレーキ,発話それぞれに基づいて検出を行った結果,80%の正解シーンを検出するために必要な誤検出数はブレーキで473シーン,発話で33シーンであった.また,Wozシステム,音声対話システムの対話中のデータについても同様の実験を行った.We introduce a method for automatically detecting potentially dangerous situations in motor vehicle traffic using driving behavior signals. Our proposed approach focuses on changes in a driver`s behavior, which we detect through brake pedal operation as well as driver speech. Experiments were performed using a large multimedia driving database obtained from the CIAIR project at Nagoya University. We analyzed data from 438 drivers who interacted verbally with a human operator. In eleven of the 25 situations we hand labeled as potentially hazardous, drivers uttered expletive words to express nagative feelings. In 17, sudden and intense compression of the brake pedal was observed. For the detection of 80% of these 17 scenes, the proposed method based on 2D-histograms of brake pressure and its dynamics also detected 473 false positives. As for the other eleven scenes, using our lexicographical speech feature-based method, a detection rate of 80% was achieved for 33 false alarms. We also present an analysis of data recorded while drivers interacted with a machine and a Wizard of Oz system.