著者
酒向慎司 宮島 千代美 徳田 恵一 北村 正
雑誌
情報処理学会研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2003, no.82(2003-MUS-051), pp.77-82, 2003-08-04

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成する上で重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリング行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し,なめらかで自然性の高い歌声の合成が可能であることを示す.
著者
酒向慎司 宮島千代美;徳田恵一 北村正 北村 正
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.3, pp.719-727, 2004-03-15
参考文献数
16
被引用文献数
19

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成するうえで重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリングを行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し歌声の合成が可能であることを示す.We describe a singing voice synthesis system by applying HMM-basedspeech synthesis technique.In this system, a sequence of spectrum and F0 are modeledsimultaneously in a unified framework of HMM, and context dependentHMMs are constructed by taking account of contextual factors thataffects singing voice.In addition, the distributions for spectral and F0 parameter areclustered independently by using a decision-tree based contextclustering technique.Synthetic singing voice is generated from HMMs themselves by usingparameter generation algorithm. In the experiments, we confirmed that smooth and natural-soundingsinging voice is synthesised. It is also maintains the characteristicsand personality of the donor of the singing voice data for HMMtraining.
著者
尾崎 晃 草川 高志 西脇 由博 マルタ ルーカス 宮島 千代美 西野 隆典 北岡 教英 伊藤 克亘 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.93, no.10, pp.2118-2128, 2010-10-01
被引用文献数
3

人間の行動を真に理解するためには,行動を記録すると同時に心的状態を知る術も同時に記録する必要がある.更にこのようなデータが大量に必要となる.そのような研究のための第一歩として,自動車実走行環境における自動車挙動を含む運転操作信号,生体信号などのデータを同期測定・記録する機器を作成した.様々な運転環境の負荷を調査するため,平静の運転をはじめ,標識や看板などを見る,イヤホンを通じて英数字を聞いて発音する,携帯電話でナビゲータと会話をする,そしてコンピュータと音声対話を行う4種類のタスクを自動車走行中に実施している.運転行動を測定するため,アクセルペダル踏力,ブレーキペダル踏力,ステアリング操作角,走行位置,車速,加速度,車間距離を収録する.また生体信号を測定するため,心拍数,皮膚電位,発汗量のセンサを搭載している.運転手と交通状況は,四つのビデオカメラと全方位カメラによって動画として記録する.運転手とナビゲータの声は,携帯電話と車内に配置されたマイクロホンで計12チャネル録音する.これらのマルチモーダルデータは同期して収録できる,2008年末までに,357名の被験者を募集して実験走行を行った.走行環境,運転行動,発話内容などに応じて詳細なラベルを定義し,実験後に運転データへ手作業で付与した.更に,このデータベースを用いた研究例を挙げ,データベース活用による今後の人間行動理解の可能性を示した.
著者
二宮 芳樹 坂 義秀 前野 俊希 根木 大輔 宮島 千代美 森 健策 北坂 孝幸 末永 康仁
出版者
一般社団法人 映像情報メディア学会
雑誌
映像情報メディア学会誌 (ISSN:13426907)
巻号頁・発行日
vol.62, no.3, pp.435-441, 2008-03-01 (Released:2010-05-01)
参考文献数
21
被引用文献数
1 1

Voice activity detection is an important part of the development of speech functions for on-board car navigation and assistance systems. It is difficult to detect voice activity using only sound information in a vehicle environment that has a wide variety of sounds and noises. We propose an suitable image feature and integration method that can be used to develop a robust bimodal voice activity detection (VAD) systems using a driver's voice and facial images. We select the normal correlation value between sequential mouth images and the number of low-intensity pixels in mouth image, which we then used as the feature for VAD. We propose a system in which the discrimination function consist of the sum of weighted singles feature discrimination functions and combinations of logical addition and multiplication of singles feature discrimination functions. The experimental results show that the proposed sound and image features can be useful and that the proposed integration method has a 97% hit rate, which is 9 points better than the previous integration method at the point that false alarm rate is about 12%.
著者
酒向慎司 宮島千代美;徳田恵一 北村正
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.45, no.3, pp.719-727, 2004-03-15

隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成するうえで重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリングを行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し歌声の合成が可能であることを示す.
著者
マルタ ルーカス 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.73, pp.19-24, 2006-07-07

運転者のブレーキ操作や発話内容から,運転中の危険な状況を検出する手法について検討した.ブレーキに基づく検出では,ペダル踏力とその時間変化の2次元ヒストグラムを用いて,通常と分布が異なる箇所を検出した.発話に基づく検出では,危険な状況で発すると考えられる単語を音声の書き起こしテキストから検出した.CIAIR対話音声・運転行動信号コーパスのうち,人間と対話中のテータ438名分に対して,人手でビデオ映像と運転行動信号を確認しながら危険なシーンのラベル付けを行った結果,計25箇所の危険なシーンが見つかった.これらのうち,ブレーキ信号,あるいは発話内容に何らかの異常を伴うシーンがそれぞれ17箇所,11箇所存在した.ブレーキ,発話それぞれに基づいて検出を行った結果,80%の正解シーンを検出するために必要な誤検出数はブレーキで473シーン,発話で33シーンであった.また,Wozシステム,音声対話システムの対話中のデータについても同様の実験を行った.We introduce a method for automatically detecting potentially dangerous situations in motor vehicle traffic using driving behavior signals. Our proposed approach focuses on changes in a driver`s behavior, which we detect through brake pedal operation as well as driver speech. Experiments were performed using a large multimedia driving database obtained from the CIAIR project at Nagoya University. We analyzed data from 438 drivers who interacted verbally with a human operator. In eleven of the 25 situations we hand labeled as potentially hazardous, drivers uttered expletive words to express nagative feelings. In 17, sudden and intense compression of the brake pedal was observed. For the detection of 80% of these 17 scenes, the proposed method based on 2D-histograms of brake pressure and its dynamics also detected 473 false positives. As for the other eleven scenes, using our lexicographical speech feature-based method, a detection rate of 80% was achieved for 33 false alarms. We also present an analysis of data recorded while drivers interacted with a machine and a Wizard of Oz system.
著者
尾崎 晃 マルタ ルーカス 西脇 由博 宮島 千代美 北岡 教英 武田 一哉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.312, pp.33-38, 2008-11-13
被引用文献数
4

自動車の運転とそれに付随する音声対話を観測した,マルチメディア信号コーパスを構築している.広い範囲の人間の『行動』を,様々な視点から説明できるモデルの研究を推進することを究極の目的として,音声・映像により記録される自動車内外の状況に加え,動作,生理,心理といった運転者の状況,速度や車間距離といった自動車の状況を様々なセンサーにより計測している.さらに,米国,トルコ等との国際協調により,海外の2拠点ともほぼ同じ方法でデータ収集を行った.本稿では,コーパス構築の状況と収集されたデータについて概説するとともに,収集したマルチメディア信号を用いた研究の概要について報告する.
著者
原 直 宮島 千代美 伊藤 克亘 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.136, pp.167-172, 2006-12-21
被引用文献数
5

実際の利用環境に近づけた被験者実験を行うために、WWW 経由でカスタマイズ可能な音声対話システム及びそのデータ収集システムを構築した。本システムのユーザは自分のPCに音声認識システムをインストールし利用する。不特定多数のユーザに対応するために、インターネット上に用意されたリモートサーバ上で各ユーザが本システムのカスタマイズすることが可能である。さらに、本システムを利用する各ユーザのPCで収録された音声データはインターネットを通してリモートサーバに送信される。本システムを利用することにより、複数のユーザによる実環境下における音声認識システム利用時データを収集することが可能になる。本論文では実際に本システムを使用したフィールドテストを行いデータ収集及び分析を行った。インターネット上に公開して2ヶ月間で59時間のデータが収集され、そのうち約5時間41分のデータ(11351個)が音声区間として検出されていた。認識実験の結果、検出された音声データからシステムに対して発話されていた音声データ4716発話を評価用データとした場合の単語正解率は66.0%であり、各ユーザ毎に教師無し MLLR 適応を行うことで単語正解率は70.5%に向上した。We developed a user customizable speech dialogue system and a framework for automatic speech data collection in field experiments over the Internet. Users can download and install the speech dialogue system onto their own PCs and customize the system on a remote server for their own use. The speech dara recorded on their PCs are transferred to the remote server through the Internet. The system enables us to collect speech data spoken by many users with wide variety of acoustic environments. During a two-month field test, we obtained 59 hours of recorded data including 5 hours and 41 minutes detected as speech, which corresponds to 11351 speech segments. The word correct rate for the 4716 speech utterances spoken to the dialogue system was 66.0%, which was improved to 70.5% after applying unsupervised MLLR for each user.
著者
川岸基成 川渕将太 宮島千代美 北岡教英 武田一哉
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014, no.13, pp.1-6, 2014-02-16

合唱歌唱時に生じる歌声の "引き込み" を利用して歌唱の基本周波数 (F0) を目標とする音高に誘導制御することを試みる.我々はこれまで,他者の歌声を受聴しながら歌唱したときの歌声への影響を歌声の引き込みという観点から分析し,1 つの質点と 2 つのばねで構成されるばね質量系を用いて,歌声の F0 動特性をモデル化した.本稿では,合唱歌唱の F0 動特性を表現するばね質量モデルを利用して歌唱の F0 を制御する手法を提案する.本手法では,合唱歌唱のばね質量モデルに基づき各歌唱者の引き込みの特徴を分析し,引き込みを考慮した誘導音を合成,受聴させることにより,目標音高に近づくように F0 を制御する.評価実験では,目標音高を受聴しながら歌唱した歌声と誘導音高を受聴しながら歌唱した歌声を目標音高との RMSE で評価し,誘導音高を受聴することで被験者 8 人中 5 人の RMSE が減少するという結果を得た.
著者
川渕将太 宮島千代美 北岡教英 武田一哉
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.2, pp.1-6, 2013-03-08

楽曲検索に関して,楽曲の音響情報を用いて楽曲間の主観的類似度を推定する手法について検討する.本研究では,楽曲間の主観的類似度は楽曲間の音響的類似度と聴取者の個人性により決定されると考える.本研究はこのうち聴取者の個人性に焦点を当て,聴取者間にどのような差異があるかを明らかにし,主観的類似度推定のモデルに組み込むことを目的としている.聴取者の個人性に関する先行研究の結果より,楽曲が音響的にどの程度似ていたら似ていると感じるかに大きな個人差が存在することが示唆された.本稿ではこの 「音響的にどの程度似ていたら似ていると感じるか」 を聴取者の 「許容度」 と呼び,許容度を含んだ主観的類似判定のモデルを提案する.実験では,楽曲間類似度の主観評価データを用いて聴取者の許容度を推定すると共に,実用の場面においてこの許容度を少数の類似性評価の結果を用いて推定することが可能であるかを確認する.
著者
北村 正 徳田 恵一 後藤 富朗 宮島 千代美
出版者
名古屋工業大学
雑誌
基盤研究(C)
巻号頁・発行日
2003

今年度は、手話の手座標・形状情報の統合に基づく認識法の検討、アクティブ画像探索法に基づく手の高速追跡法、基本動作モデルの検討を行った。以下にそれぞれについて述べる。1.国立身体障害者リハビリテーションセンター研究所開発の日本手話データーベース(DB)を利用した。当該DBの中から動作数の多い手話動作者、出現頻度の高い18単語を選び学習・認識の対象とした。手話の特徴パラメータとして、手の動作と形状情報を利用しているが,それらを統合する方法(初期統合法、結果統合法)を検討した。動作:形状に7:3の重み付けをした統合により、形状情報単独に比べて誤り改善率が12.5%と向上し、82.8%の単語認識率が得られ、その有効性が示された。手話単語モデル作成には隠れマルコフモデルを用いている。2.手の座標抽出の実時間処理を目指して、アクティブ画像探索法に基づく方法を検討した。提案法は、過去の手座標から現在の探索範囲を予測し、探索範囲内の動作領域と肌色領域の情報から手座標を高速抽出する方法である。RWCPの手話単語DBに対して、肌色情報のベクトル量子化に基づき手の座標を抽出する従来法と比較を行い、4倍高速に抽出可能であることを確認した。3.前後の基本動作情報に基づくコンテキストクラスタリングを用いる基本動作モデル学習法を提案した。RWCPの手話単語DBを用いたが、まず手話単語を基本動作のラベル付けを行い、コンテキストクラスタリングに基づいて基本動作モデルを作成し、更に連結学習により各モデルを再学習する。得られた基本動作モデルの接続により任意の単語モデルを作成する。研究では、33単語モデルの認識実験を学習データに対して行ったが、約93%の認識率が得られ、提案法の有効性が確認できた。今後は,テストデータに対して有効性を検討していく予定である。