著者
小森 智康 今井 篤 清山 信正 田高 礼子 都木 徹 及川 靖広
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.113, no.76, pp.107-112, 2013-06-06

高齢者は放送番組の背景音(音楽・効果音)をうるさく感じたり,アナウンサーや役者の音声が不明瞭で聞きづらく感じたりすることがある.これに対し,家庭側(受信機側)で高齢者に適した番組音声に調整する装置の開発を進めている.音声区間(ナレーション・セリフと背景音が混在する区間)では,ステレオ背景音の無相関な成分を抑圧し,相関成分では音声の母音や子音の音響的な特徴をフィルタ処理により強調し,非音声(背景音だけの)区間は,ゲイン制御のみによる劣化のない抑圧を行なうことで,番組全体での音質劣化を抑制する手法を提案した.提案手法により6dB相当番組背景音を抑圧できることを主観評価で確認し,高齢者視聴実験により番組音が聞きとりやすくなることを確認した.
著者
橋本 昂宗 植松 裕子 斎藤 英雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.109, no.375, pp.85-90, 2010-01-14
被引用文献数
1

本論文では,多視点のカメラの映像を合成することにより,中央カメラに映る障害物を取り除くとともに,障害物に隠れていた物体を透視することで,シースルー映像を生成する手法を提案する.本手法を野球の試合映像に適用し,審判とキャッチャーに隠されたピッチャーの姿を透視した映像を生成する.本手法は,ピッチャーの合成,審判とキャッチャーの除去,ボール軌跡の可視化の処理から成る.ピッチャーの合成では,左右カメラにおけるピッチャー領域を,Homographyによって中央カメラ視点へ変換して合成する.審判とキャッチャーは,Graph cutを用いた領域検出によって除去する。ボール軌跡は,左右および中央カメラ間に成立するTrifbcal Tensorを用いて中央カメラでのボール位置を推測することで可視化する.最後に,それぞれの処理によって生成された結果を領域ごとに合成することで,シースルー映像を生成する.実験では,球場にて撮影した多視点映像に本手法を適用し,障害物であるキャッチャーと審判を除去したシースルー映像を合成することができた.
著者
馬場 紘彦 江端 正直
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.95, no.141, pp.47-53, 1995-07-14

本論文は、救急車の乗務員2,295人に対して、電子サイレン音についての意識調査を行い、出動中における電子サイレン音の効果や心身への影響等を調べたものである。そして主に次の様な結果が得られた。(1)電子サイレン音は、時と場合により音の大きさを変える必要があり、特に交差点や交通の多い所で大きく、住宅や夜間では小さい方が望ましい。(2)一般車が実際に避譲する距離は30m以内で83%である。(3)電子サイレン音は心身に影響があると回答した人は約41%であり、その内容は、頭痛や耳の障害の他、精神的苦痛等さまざまである。
著者
大村 祐司 川端 豪
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.112, no.369, pp.47-51, 2012-12-13

目的達成および雑談的な対話制御機能を併せ持っ音声対話システムを構築した.目的達成のための対話制御はスロットフィリングに基づいて行われる.一方,雑談的な対話制御は刺激一応答型の事例ベースで行われる.刺激応答に基づく対話制御部は雑談のきっかけとなる単語を監視し,発見すればその単語に応じた雑談を開始する.数回のやり取りの後,制御は目的達成型対話制御部に戻る.11名の被験者にこのシステムと対話をして貰い,アンケート結果を集計したところ,雑談機能を持つ音声対話システムのほうが「面白い」「興味深い」「人間的」などの項目でよい評価を得た.
著者
小坂 直敏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.95, no.534, pp.9-16, 1996-02-23
被引用文献数
14

Sinusoidal model(正弦波重畳モデル)に基づく音色の補間(モルフィング)アルゴリズムについて述べる。モルフィングは映像処理の分野で一般的な技術となっているが、近年、音合成の分野でも研究が活発になってきた。しかし、モルフィング自体の定義はあいまいで、研究者により問題設定が異なっていたり、明確なアルゴリズムとして記述されていないなど、まだ相互比較の段階ではない。本論文では、音におけるモルフィングの問題を紹介し、自動処理を前提にしたアルゴリズムについて、特に異なるメンバ数の二組の間で最適に対応する相手を見い出すアルゴリズムを中心にして詳細に述べる。また、定常楽音、および音声について、意図した補間音が得られたことを主観類似性評価試験により確認した。また、得られた合成音の品質評価結果についても報告する。
著者
片山 圭巳
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.116, pp.93-98, 2008-06-20

本研究は英語母語話者と日本語母語話者がどのように音響的差異を使って音声語彙認識をするか、またアクセント知覚をするかを調査した。まず、音声作成プログラム(Sensyn)を使って、日本語の「雨」と「飴」の音声を作成し、二つの音声の基本周波数の差を開始点と終点で8分割し、9段階の音声刺激を作成した。日本語母語話者には日本語「雨」か「飴」を、英語母語話者には英語でアクセントが第一音節にあるか第二音節にあるかを弁別するように指示をした。米国出身の英語母語話者3名と東京地方出身の日本語母語話者3名が、無作為に提示された9段階の刺激音を10回ずつ聞いて弁別をした。
著者
宮林 穎夫 船田 哲男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.178, pp.29-36, 1998-07-17

音声の基本的特徴であるピッチ周波数の検出は, 音声分析合成を行う上で, 最も重要な研究課題の一つである.本論文では, 連続音声の有声/無声判定およびピッチ抽出に, 我々の提案する帯域フィルタ対(BPFP)バンクを利用する方法が, ピッチ周期の乱れやピッチごとの波形変動, 雑音付加に対してどのような性能を示すかを, ケプストラム法や変形相関法と比較し検討する.実験の結果, BPFP法は他の代表的な手法であるケプストラム法や変形相関法と比べて, 性能が比較的安定し有効なピッチ抽出法であることと, BPFPバンク中心周波数間隔の対数化によって, 特に低周波数帯域で効果があらわれることがわかった.
著者
大川 茂樹 ウィントホイザー クリストフ バンボ フレデリック 白井 克彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.93, no.427, pp.25-32, 1994-01-21

TDNNに基づくハイブリッド型単語音声認識システムにおいて,音韻の弁別特徴という新しい表現を導入する.この表現を利用することにより,一般的な音韻表記よりもコンパクトで学習の速いネットワークが構成できる.また,異なる性質を持ったネットワークを平等に評価するための尺度として,相互情報量を導入し,モジュラー型TDNNの構成の最適化を試みる.英語アルファベットデータベースを用いて,フレーム毎の弁別特徴認識実験と,DTWを組み合わせた単語認識実験を行った結果、相互情報量により最適化したネットワークを用いた場合にも最も良い性能が得られ,提案した手法の有効性が確認された.
著者
中嶋 秀治 水野 秀之 吉岡 理 高橋 敏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.365, pp.173-178, 2011-12-12

表現豊かな音声において多様性を示す句末音調ラベルをテキストから予測する方法について述べる.本方法では,これまでの読み上げ口調の音声合成の言語解析の出力結果である単語の情報と,アクセント句およびイントネーション句の境界情報を用いる.そして,表現豊かな音声が発せられる場面,および,話者に依存したモデルを構築する.商品宣伝,電話応対の各場面のデータを用いて,句末音調ラベル予測評価実験を行なったところ,数個の特徴量を用いる提案法が,多量の特徴量に基づく従来法に比べて同等以上の一致率(Cohen's kappa)を得ることを確認した.
著者
小林 俊平 清水 信哉 峯松 信明 広瀬 啓吉 平野 宏子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.471, pp.95-100, 2012-03-01
参考文献数
19

より自然な音声を出力する日本語テキスト音声合成システムを実現するためには,入力文中の各アクセント句のアクセント核位置を適切に推定する必要がある.筆者らはCRFを用いた統計的アクセント型予測モデルに,従来から広く用いられていたアクセント結合規則を素性として組み込むことで,大きな精度改善を実現してきた.しかし,数詞を含む句や外来語を含む句など,特殊なアクセント変化を起こす句に対しては,まだ十分な精度が出ていなかった.そこで本稿では,これらの句に対して規則処理を参考にすることで定義される素性を付加することで,精度改善を試みた.また,アクセント変形予測技術の一つの応用として,日本語教育支援について検討した.具体的には,任意の日本語テキストを対象とした活用語アクセント辞書の自動生成システムを作成した.
著者
石井 カルロス 寿憲 石黒 浩 萩田 紀博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.178, pp.1-6, 2006-07-14
参考文献数
14
被引用文献数
1

「りきみ」(喉頭をりきんだ際に生じる声質)は,声帯の振動パターンに関連する声質の一種類である.りきみは,話者の感情や態度などのパラ言語情報をもたらすため,対話システムなどにおいて,りきみの自動検出を考慮することは重要と考えられる.本稿では,りきみの自動検出を目的とし,りきみの生成と知覚を考慮し,さまざまな音響特徴の分析を行った.自然対話より抽出したりきみ区間を分析した結果,まず周期性の不規則な特徴以外にも,りきみの知覚に影響する要因が存在することが分かった.喉頭のテンションに関連するスペクトル傾斜を表現したパラメータによる識別を試みた結果,りきみ発話の一部は表現できた.しかし,スペクトル解析により,鼻音化した母音とダブル・ビートの声帯音源が生じた場合に,スペクトル傾斜のパラメータが不適切であることを明らかにした.時間軸での分析を行った結果,非りきみのフライ発話では,diplophoniaが多く生じ,りきみ発話では,生じない傾向が観られた.この結果を基に,りきみの生成過程における議論を行った.
著者
中臺 一博 奥乃 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.110, no.401, pp.7-12, 2011-01-20
参考文献数
18

我々が取り組んでいるロボット聴覚研究について,その位置づけや意義を解説し,これを実現するための高雑音下ハンズフリー音声認識へも適用可能な技術としてマイクロホンアレイを用いた動的環境下の実時間音源分離とその音声認識への適用について紹介する.紹介する技術は,ロボット聴覚ソフトウェアHARKとしてオープンソースで公開を行っている.そこで,これらの技術の有効性を,実際のロボットへのHARKの適用事例を通じて示す.
著者
馬場 紘彦 江端 正直
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.94, no.166, pp.9-14, 1994-07-22
被引用文献数
2

本論文は、救急車の電子サイレン音に気付くことが遅れると思われる二つの要因、1)車の運転に注意を向けている事に依るいき値の上昇、2)警告音(サイレン音)を(イ)予期している場合と、(ロ)予期していない場合に於けるいき値の差についてその効果を調べた。その結果、(1)車の運転時、速度が10km, h増す毎に約0.5dB(2.5m)、また、普通走行時は約1.5dB(8m)だけ検知が遅れる。(2)(イ)と(ロ)の場合に於ける検知率の違いは、その人数の割合に依り異なり、(ロ)の検知率は、ほぼ音圧レベルに比例し、1dB減少する毎におよそ10%減少する。以上の事から、実際の路上を走行するドライバーが、どれ程の距離で救急車の接近に気付くかを予測している。
著者
水谷 春菜 板井 陽俊 安川 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.28, pp.61-65, 2011-05-05
参考文献数
19

人間の歩行足音は歩行のくせなどから固有の特徴を有し,我々はその特徴から個人や歩行者の状態を認識することがある.近年,歩行足音を用いた個人識別や歩行者数推定に関する研究が進められており,様々なサーベイランスシステムヘの応用が期待されている.我々はたびたび歩行者の性別を歩行足音から識別することがあり,その自動判別が可能となれば映像情報を伴わない客層の自動収集システムが実現できる.本研究では新たなサーベイランスシステムの構築を目指し,歩行足音を用いた男女識別に関する基礎検討を行なう.
著者
渡部 大志 崔 英泰 酒井 勝弘 中村 納
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.111, no.431, pp.129-130, 2012-02-02

防犯カメラからの犯行現場画像と被疑者画像との撮影角度を吸収するため,姿勢変化に対する耳介認証システムのロバスト性を向上させるアルゴリズムを提案した.カメラ平面外回転方向への姿勢変化に対応するため,姿勢変化後のGabor Jetを推測し判別分析に学習させた.提案手法の有効性が実験的に確認でき,犯行現場画像中の耳介画像から被疑者候補を挙げるシステムの精度向上の可能性が示せた.
著者
西川 員史 林 宏樹 桑江 俊治 棚橋 邦浩 信 英明 持田 岳美 誉田 雅彰 高西 淳夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.248, pp.17-22, 2002-07-19
参考文献数
10
被引用文献数
1

本研究は,人間の発声運動を模擬した人間形発話ロボットを用いて,人間の発声メカニズムをロボット工学的な視点から明らかにすることを目的としている.著者らは人間に近い自然な発声を目指し,昨年までの問題点を改良した新型発話ロボットWT-2(Waseda Talker-No.2)を開発した。WT-2は肺,声帯,口腔及び鼻腔からなる全15自由度の制御機構を有し,声道長は約175mmと人間と同程度の大きさを持つ.昨年までに開発したWT-1,WT-1Rと比べ,より柔軟な舌形状変更機構と,唇・鼻孔以外からの音漏れ低減により,明瞭性の高い母音及び破裂子音,摩擦子音,鼻子音の生成を実現した.
著者
荒井 隆行 田中 希美 片岡 竜太
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.338, pp.143-148, 2008-12-02
参考文献数
14
被引用文献数
2

軟らかいゲル素材を用いて,軟口蓋が動き鼻咽腔閉鎖をする声道の物理模型を製作した.その模型では,軟口蓋から咽頭壁に渡ってゲル素材を用い,鼻腔を含むその他の部分はアクリル素材を用いた.4つの鼻咽腔閉鎖パターン(Coronal, Circular, Circular with Passavant's ridge, Sagittal)を模擬するため,ゲル素材の軟口蓋部にひもを付けると共に,両脇と後方からアクリル棒を押し込むことで咽頭側壁と咽頭後壁を動かせるようにした.これらの動作によって鼻咽腔閉鎖の度合いを連続的に変化させた結果,鼻咽腔結合部の開存面積に応じて模型から生成される音声信号の開鼻声の程度が変化することを確認すると共に,スペクトル上に極零対などが現れることを確認した.
著者
吉川 茂 武藤 葉子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.635, pp.13-18, 2001-02-15

ホルン奏者の上唇の運動を3次元的に理解する目的で, 透明のマウスピースとナチュラル・ホルンを用いて唇の運動を正面と横からのストロボによる擬似スロー・モーションとして観測し, さらに座標軸を設定して1コマごとに運動を解析した。上唇の開閉運動は上唇の先端を追跡することによって分かる。この開閉運動に重なってはいるが, 別種の波動が上唇表面に発生しており, その伝搬経路と伝搬速度は唇を横から観察するときに現れる可視化映像上の輝点(波頭に相当する凸部)の運動を解析することによって知れる。最低の2次モード音F_2(87.3Hz)を上級者が吹奏すると, 波動はマウスピースのリムに接する唇の端点から発生し, 唇の中央まで水平に伝搬し, そこから上方に曲がり, リムで反射されて元に戻る。波動が唇の中央まで水平に伝搬するとき, 唇は外向きに開いていく。高次モード音のF_3やF_4では波動は主に垂直方向にのみ伝搬する。伝搬速度は約1〜4m/sの範囲にあり, 唇の張力や吹奏圧の影響を除外すると, 約1.8m/sと推定された。さらに波動をレイリー型表面波と仮定すると, 唇のずり弾性率は約4×10^3N/m^2となった。また, 波動伝搬と開閉運動を再現できるような1質量-3バネモデルを提案した。
著者
帆足 啓一郎
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.110, no.143, pp.19-24, 2010-07-15

近年盛り上がっている音楽情報検索の研究について,主なアプローチや,研究の最新動向等を中心に解説する.具体的には,すでに多くの実用的なアプリケーションやサービスが発表されている厳密型の音楽情報検索ではなく,曖昧型の音楽情報検索技術に焦点をしぼって解説を行うこととする.近年の音楽情報検索でとられる主なアプローチとしては,検索対象楽曲の音響的特徴を利用した検索に加え,Web上の情報を利用した研究例が急速に増えている.また,音楽情報検索の可視化についても多くの研究発表が行われている.本稿では,こうした流れを踏まえ,代表的な研究事例について紹介する.
著者
三輪 多恵子 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.744, pp.51-58, 2002-03-21
参考文献数
10
被引用文献数
2

筆者らは,英語音声の韻律的な特徴に着目し,英語らしさを判別するために有効な韻律パラメータについて検討を行なっている.本研究では,ネイティブ英語音声と日本人英語音声から韻律情報を抽出し,その韻律情報のみを保存した合成音に対する聴取実験を行なうことで,各音声の英語らしさに対して点数付けを行なう.また,各音声のF0とパワーの分散,発話時間長,強勢の周期性等を算出し,日本人英語音声の練習前後のスコアの変化と算出した各値の変化とを比較することで,英語らしさに関係する韻律パラメータを明らかにする.さらに,上記の韻律パラメータと英語らしさの評価点の関係から,英語らしさを自動判別するための線形モデルを作成し,本方式の妥当性を検証する.