著者
櫻庭 京子 今泉 敏 峯松 信明 田山 二朗 堀川 直史
出版者
日本音声言語医学会
雑誌
音声言語医学 (ISSN:00302813)
巻号頁・発行日
vol.50, no.1, pp.14-20, 2009 (Released:2010-03-17)
参考文献数
13
被引用文献数
1 3

transsexual voice therapyにおいて,訓練ターゲットとする声の高さを検討するために,男性から女性へ性別の移行を希望する性同一性障害者(MtF: male to female transgender/transsexual)119名と生物学的女性32名の母音発声(/a//i/)と朗読音声に対して,話者の性別を判定させる聴取実験および基本集周波数(F0)の分析を行い,比較検討した.その結果,70%以上女性に聴こえる発話の声の基本周波数(F0)は母音で平均270Hz,朗読で217Hzとなり,生物学的女性の平均値243Hz(母音),217Hz(朗読)に近いものとなった.しかしながら,生物学的女性と同じF0値の範囲にあっても,女性と判定されない声が7割近くあり,声の高さだけが女性の声に聴こえる要因ではないことが示唆された.
著者
櫻庭 京子 今泉 敏 峯松 信明 田山 二朗 堀川 直史
出版者
日本音声言語医学会
雑誌
音声言語医学 (ISSN:00302813)
巻号頁・発行日
vol.50, no.1, pp.14-20, 2009-01-20
参考文献数
13
被引用文献数
3

transsexual voice therapyにおいて,訓練ターゲットとする声の高さを検討するために,男性から女性へ性別の移行を希望する性同一性障害者(MtF: male to female transgender/transsexual)119名と生物学的女性32名の母音発声(/a//i/)と朗読音声に対して,話者の性別を判定させる聴取実験および基本集周波数(F0)の分析を行い,比較検討した.<br>その結果,70%以上女性に聴こえる発話の声の基本周波数(F0)は母音で平均270Hz,朗読で217Hzとなり,生物学的女性の平均値243Hz(母音),217Hz(朗読)に近いものとなった.しかしながら,生物学的女性と同じF0値の範囲にあっても,女性と判定されない声が7割近くあり,声の高さだけが女性の声に聴こえる要因ではないことが示唆された.
著者
櫻庭 京子 丸山 和孝 峯松 信明 広瀬 啓吉 田山 二朗 今泉 敏 山内 俊雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.613, pp.1-5, 2007-03-19
参考文献数
7

著者らは男性から女性へ性別の移行を希望する性同一性障害者(Male-to-Female transgenderd/transsexual=MtF)に対して、声を女性化させるためのtranssexual voice therapy(TVT)を行っている。今回の発表では、MtFの発話音声の分類を試みたので、その分類結果について報告する。今回の分類では、その一試案として発話者MtFの性的指向、男性から女性へ性別を移行したいと考える理由、現在の生活の実態など、音声の音響的な側面のみでなく、発話者の生き様も考慮した。このような分類法は、MtFの生き方の多様性と声の関係を把握するのに有効と考えられ、この研究の本来の目的であるTVTの方法論の確立のためにも必要であると考える。
著者
峯松 信明 西村 多寿子 櫻庭 京子 朝川 智 齋藤 大輔
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.37-42, 2007-07-19
被引用文献数
3

発達心理学では幼児の言語獲得を「音声模倣」という言葉で表現するが,通常,声(音)を模倣しようとする幼児はいない。一方,九官鳥の「音声模倣」では彼等は声(音)を模倣する。何故,幼児は声(音)を模倣しようとしないのか?音の音色は共鳴特性に支配されるため,音を模倣する場合,親が持つ声道と同様の形状を有する声道が必要となり,結局,親と同じ体格が要求される。よって,物理的に声模倣は不可能である。では,何故,模倣しようと努力しないのか。そもそも,物理的に異なる二つの音ストリーム(例えば,父・母の「おはよう」)を何故「同一である」と感覚するのだろうか?「聞こえた音を音韻(仮名)表象に変換し,音韻列としての同一性を認知する」との仮説も可能であるが,発達心理学はこれを否定する。何故なら,分節音及び音韻意識は「後天的に学習されるもの」だからである。本研究は,上記問いを数学及び物理の問題として捉え,「音色の相対音感」という新概念を提案することで解く。提案する枠組みは,一つの帰結として「孤立音を音韻として同定する能力は音声言語運用の必要条件ではない」という命題を主張するが,欧米圏に数多く存在する発達性ディスレクシアが該当する症状を呈している。
著者
櫻庭 京子 丸山 和孝 峯松 信明 広瀬 啓吉 田山 二朗 今泉 敏 山内 俊雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.686, pp.29-34, 2006-03-21
被引用文献数
1

著者らは男性から女性へ性別の移行を希望する性同一性障害者(Male-to-Female transgendered/transsexual=MtF)に対して、声を女性化させるためのtranssexual voice therapyを行っており、今回の発表では話者認識技術を用いて知覚的女性度を推定するシステムの臨床応用について検討する。このシステムは、声道特性と音源特性それぞれについて、男声モデル・女声モデルを持ち、各特性別に入力音声の女声度を推定、聴取実験により女性と判定される率(知覚的女声度)の予測値を算出する。上記のシステムを実際の臨床で用いた結果、声道形状を変えながらピッチをあげて女声をつくる方略の完成度を知ることはできるが、発話スタイルの動的制御に基づく女声の生成方略には対応できておらず、今後の検討の課題であることがわかった。
著者
櫻庭 京子 峯松 信明 広瀬 啓吉 坂野 秀樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.104, no.630, pp.25-29, 2005-01-20

男性から女性へ性別の移行を希望する性同一性障害者(Male to Female transgender/transsexual=MtF)に対する音声治療・訓練を筆頭著者が中心となって行なっている。今回, 本訓練の客観的及び主観的有効性を検証するために, 訓練前後の音声に対する第三者による評価実験を行なうと共に, 訓練効果に対する患者本人の満足度について調査した。さらに話声位のF0(基本周波数)の変化を調べた。その結果, 第三者の聴取実験において訓練前は全ての聴者から男性と判定されていた患者が, 二ヶ月の訓練後では, 聴者の約九割に女性と判定されるに至った。患者自身も凡そ声の変化の様子に満足しているとの結果が得られている。F0は成人男性の平均値から成人女性の平均値に移行した。
著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
大垣慶介 齋藤大輔 峯松信明 広瀬啓吉
雑誌
第73回全国大会講演論文集
巻号頁・発行日
vol.2011, no.1, pp.541-542, 2011-03-02

本稿では、統計的特徴量変換に基づき、標準フォントから手書きフォントを合成する手法を提案する。<br />手書きフォントは、計算機と人間との文字インターフェースであるフォントに特定の筆者の個人性を反映したものであり、<br />ユーザに特化したインターフェースという観点から重要となる。<br />しかし計算機上で手書きフォントを扱う上で、日本語には漢字の種類が多く、すべての手書きサンプルをとることは困難な問題となる。<br />本研究では、この問題に対し、標準フォントと目的筆者の手書きの少数サンプルとの対応関係を統計的にモデル化し、文字生成に適用する。<br />文字の構成要素である筆画の形状、位置、大きさについて、<br />音声変換で用いられる混合ガウス分布に基づく特徴量変換を適用した。
著者
古本 勇記 峯松 信明 廣瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. EA, 応用音響 (ISSN:09135685)
巻号頁・発行日
vol.102, no.32, pp.25-30, 2002-04-18

本報告では,これまで定常音とみなせる音でしかなされなかった音のモーフィングを,非定常音,なかでもドラム音に対して行う.ウェーヴレット変換を用いた年行研究[4]の分析手法をモーフィング用に改良してドラム音のパラメトリックな表現を得,このパラメータの補間によりドラム音のモーフィングを実現する.バスドラム(BD)・スネアドラム(SD)・タムドラム(TD)に対してモーフィングを行い,提案手法のモーフィングの品質と,モーフィング率と原音への心理的類似性との相関を調べる聴取実験を行った結果,全般的に高い品質でモーフィングが実現できていることが示された.
著者
齋藤 大輔 山本 敬介 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.322, pp.7-12, 2011-11-21

本稿では,話者空間をテンソル形式によって表現することにより,柔軟に話者性を制御することが可能となる新しい手法を提案する.声質変換の研究において,任意話者の音声を入力または出力として,変換を実現する手法はアプリケーション応用の観点からも非常に重要な技術であるといえる.任意話者声質変換を目的とする技術として,固有声混合正規分布モデル(EV-GMM)に基づく固有声変換法(EVC)が提案されている.EVCにおいては,話者認識でよく用いられるアプローチと同様に,各話者GMMの正規分布の平均ベクトルを連結して得られるGMMスーパーベクトルをもとに話者空間が構築される.構築された話者空間上において,個々の話者は固有スーパーベクトルに対する少数の重みパラメータによって表現することが可能となる.本稿では,話者空間を構築するための事前学習話者データに対して,テンソル解析を導入することによって話者空間を構築することを検討する.本研究における提案手法では,個々の話者はスーパーベクトルではなく行列によって表現される.この話者を表す行列の行及び列は,それぞれ音響特徴量の平均ベクトルの次元及びガウス分布の要素に対応する.ここで,これらの行列のセットに対してテンソル解析を導入することで話者空間が構築される.提案法は,話者情報のスーパーベクトル表現に内在する問題点に対する解法となっており,任意話者声質変換の性能向上が期待できる.本稿では,一対多声質変換において,提案する話者空間表現を導入することで,その有効性を示す.
著者
峯松 信明 牧野 武彦 山内 豊 齋藤 大輔
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2018-04-01

外国語学習の主目的は,対象言語を用いた他者との音声コミュニケーションであるが,その言語を日常使う機会に恵まれなければ,外国語訛りが強く残り,聴取者にとって聞き取り難い発音となる。学習者発音を矯正する場合,教師は自身が内在的に持つモデル発音との差異に基づいて矯正し,これを技術的に実現する場合も,母語話者発音モデルとの差異を自動検出することになる。これらは母語話者のような(native-souding)発音を学習目標とした指導戦略と言えるが,外国語音声学習の主目的は十分伝わる可解性の高い(comprehensible enough)発音の獲得である。この場合,聴取者が持つと想定される発音逸脱への許容度を前提とした指導が必要となるが,聴取者の許容能力を計測・モデル化することが困難であるため,発音了解性に基づく音声指導は,教師の経験と直感に頼らざるを得なかった。本研究では,1) 学習者音声o(t)に対する母語話者シャドーイングを通して,各音声に対して了解度の時系列パターン i(t) を定量的に導出し,o(t) と i(t) のパラレルコーパスを構築する。2) それを用いて,任意の学習者音声のどこが,どの程度聞き取り難くなるのかを深層学習によって予測する技術を構築する。3) 最終的に,LA を母語とし LB を学ぶ学習者群と,LB を母語とし LA を学ぶ学習者群に対して,互いに他群の学習者音声をシャドーイングさせ(互いに他者の評価者となり),学習者音声のどこで了解性が低下するのかを教示する教育インフラを構築・公開し,外国語音声教育に貢献する。2018年度は学習者音声に対して音素事後確率を推定し i(t) とする方式を提案した。その後,シャドー音声以外に母語話者の読み上げ音声を利用する手法を考案することができた。
著者
峯松 信明 中村 新芽 橋本 浩弥 広瀬 啓吉
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2013, no.21, pp.1-6, 2013-12-12

日本語の韻律教育を支援すべく,自然言語処理技術,音声言語処理技術を用いたオンラインアクセント辞書 (Online Japanese Accent Dictionary, OJAD) [1] を構築,運用している。日本語は前後のコンテキストによって単語のアクセントが頻繁に変化する特徴を有するが,アクセント変形に十分対応した日本語教育史上初の教材として,世界中の教育現場で利用されるに至っている。またこれまで,約 4 時間に渡る OJAD 講習会を,国内 10 都市,海外 17 都市で開催しており,どの講習会も好評を博している。OJAD 開発を技術的観点から見ると,アクセント句境界推定,アクセント核位置推定,Fo パターン生成など,音声合成の裏方として機能していた技術を表舞台に出しているに過ぎない。これは音声合成技術の一部を,音声を合成する目的以外に応用している例として考えることができる。本稿では,音声合成技術の応用可能性を考える一つの例として OJAD 開発・運用を捉え,検討する。To support Japanese prosody instruction, the Online Japanese Accent Dictionary (OJAD) [1] has been developed by using NLP and SLP techniques and it is maintained by our laboratory. Japanese is a very unique language in that word accent often changes due to its context. The OJAD was introduced to the Japanese language education community as the first educational system that can handle context-based word accent changes very well and it is actively used by teachers and learners internationally. So far, 4-hour OJAD tutorials have been held at 10 domestic cities and 17 international cities and each tutorial was welcomed to Japanese teachers there. If we discuss development of the OJAD from a technical point of view, the OJAD uses several internal modules of Japanese speech synthesis, such as estimation of accent phrase boundaries and accent nucleus positions, and Fo pattern generation. It is interesting that the OJAD uses these techniques not for synthesizing speech. In this report, by regarding development of the OJAD as one example of using speech synthesis techniques not to synthesizing speech, we discuss new possibility of applying these techniques to new domains.
著者
峯松 信明 西村 多寿子 西成 活裕 櫻庭 京子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.98, pp.1-8, 2005-05-20
被引用文献数
14

『音声知覚の容易性と音声物理の多様性』音声研究者を長年悩ませ続けてきた古典的問題である[1]。音声科学は, 音素に対する音響的不変量の不在から, 調音運動にその答えを求めている(運動理論)[2]。その一方で音声工学は, 膨大なる音声データの収集とその統計的モデリングにその答えを求めている(隠れマルコフモデル)[3]。問題は解かれたのか?否である。本研究は, これらとは全く異なる方法で一つの解答を与える。その際, 「構造不変の定理」と呼ぶ数学定理を導入する。この数学定理の上で, 「何故言語(記号とその操作体系)は空気振動に宿ったのか?」「言語が宿るということは, 空気振動に如何なる物理特性を要求するのか?」という問題を意識して音声モデリングを再考し, 上記問題に対する解答, 音声ゲシュタルト, を導出する。本稿では, この導出が, 認知心理学, 生態心理学, 認知言語学, 障害学, 及び, 複雑系研究を通して音声言語コミュニケーションを捉え直すことと等価であることを示す。更に, 音声研究史に対する一つの提言を行なうと同時に, 言語の獲得, 及び, 言語の起源についても考察する。
著者
峯松 信明 中村 新芽 橋本 浩弥 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.113, no.366, pp.129-134, 2013-12-12

日本語の韻律教育を支援すべく,自然言語処理技術,音声言語処理技術を用いたオンラィンアクセント辞書(Online Japanese Accent Dictionary, OJAD)を構築,運用している。日本語は前後のコンテキストによって単語のアクセントが頻繁に変化する特徴を有するが,アクセント変形に十分対応した日本語教育史上初の教材として,世界中の教育現場で利用されるに至っている。またこれまで,約4時間に渡るOJAD講習会を,国内10都市,海外17都市で開催しており,どの講習会も好評を博している。OJAD開発を技術的観点から見ると,アクセント句境界推定,アクセント核位置推定,F_0パターン生成など,音声合成の裏方として機能していた技術を表舞台に出しているに過ぎない。これは音声合成技術の一部を,音声を合成する目的以外に応用している例として考えることができる。本稿では,音声合成技術の応用可能性を考える一つの例としてOJAD開発・運用を捉え,検討する。
著者
峯松 信明 西村 多寿子 朝川 智 櫻庭 京子 齋藤 大輔
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告. SLP, 音声言語情報処理 (ISSN:09196072)
巻号頁・発行日
vol.2007, no.75, pp.75-80, 2007-07-20
参考文献数
30
被引用文献数
3

一つの言語には通常数十種類の音素(phoneme)がある。しかし音素の音的実体は前後文脈(音素環境)などによって多様に変形し,異音(allophone)と呼ばれる。音素と比較して種類数も多く,より具体的な音的現象に対応している。しかし奇妙なことに,これら音的事象を記号を用いて記す場合,性別,年齢,収録・伝送機器特性などによる音の変形(非言語的要因による音響的変形)は一切無視される.その音響的変形が幾ら大きくても,である。音声認識の音響モデリングは,凡そ,異音に相当する音事象をtriphoneとしてモデル化しているが,「非言語的変形の無視」を実装するために,数万人の話者から,様々な環境で収録した音サンプル群を統計的にモデル化している。本稿では,「非言語的変形の無視」の実装は,集めることではなく,音事象間の差異を捉えることで可能となることを数学的に示し,極めて少数の話者の音声で,不特定話者音声認識が可能であることを示す。提案する枠組みでは,音的要素をモデル化するのではなく,音的差異に着眼し,差異を集めることで構成される全体的な音的構造をモデル化する。
著者
ポンキッティパン ティーラポン 齋藤 大輔 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.112, no.81, pp.7-12, 2012-06-07

本稿ではeigenvoiceに基づくキャラクター変換の一手法を提案する。273名の話者から構築したeigenvoice話者空間と,セミプロの声優から収録した三種類のキャラクタ声を用いて,キャラクター変換を実装する。ここでは任意の入力話者に対して,その話者の個人性を保存しつつ,声のキャラクターのみを変換する。母語話者及び非母語話者を対象に,キャラクター変換前後の合成音声を用いた聴取実験を行なった。その結果,意図されたキャラクター差異が十分に知覚されることが示された。更に,セミプロの声優による二キャラクターにおいて基本周波数差異が小さい場合でも,対応する合成音声から,十分にキャラクター差異を知覚できることが示された。これは,キャラクター変換の場合,スペクトルに基づく変換が不可欠であることを意味している。また,セミプロによる三キャラクタ声と提案手法による三キャラクタ声との音響分析により,本提案手法が適切な変換を実装できていることも確認できた。
著者
成澤 修一 峯松 信明 広瀬 啓吉 藤崎 博也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.7, pp.2155-2168, 2002-07-15
被引用文献数
18 4

藤崎らによる音声の基本周波数パターン($F_0$ パターン)生成過程のモデルは,少数のパラメータから実測の $F_0$ パターンにきわめて近いパターンを生成しうることが知られており,音声合成に広く用いられている.一方,実測の $F_0$ パターンからモデルのパラメータを抽出することは解析的には解けない逆問題であり,初期値を与え逐次近似を行う必要がある.この場合,高精度のパラメータを迅速に抽出するには適切な初期値の設定が不可欠であるが,従来はこれを人手によって行っていたため,大量の音声資料の自動的処理は困難であった.本論文では,実測の $F_0$ パターンからパラメータの初期値を自動的に決定し,さらにそれに基づいて高精度のパラメータ抽出を自動的に行う手法を提案する.この手法は,実測された $F_0$ パターンをいたるところで連続かつ微分可能な曲線によって近似するための処理,得られた曲線からアクセント指令とフレーズ指令のパラメータの初期値を決定するための処理,さらにそれらの初期値をもとに逐次近似によりパラメータの最適値を求める処理,の3段階の処理からなる.共通日本語の男性・女性話者各1名の朗読音声を対象とした実験の結果,男性の朗読音声について,以前に提案された手法では,パラメータ抽出の性能として,指令の再現率78%,精度67%であるのに対し,提案手法によればそれぞれ82%,80%であった.また,女性の朗読音声については,従来手法では再現率60%,精度51%であるのに対し,提案手法ではそれぞれ83%,72%であった.この結果から,本手法の有効性が実証された.The model for the generation process of the fundamental frequency contours (F0 contours) of speech by Fujisaki et al. is known to be capable of generating F0 contours quite close to observed natural contours, and is widely used in speech synthesis. The extraction of model parameters from an observed F0 contour, however, is an inverse problem that cannot be solved analytically, and requires an iterative process starting from a set of initial parameter values. In order to guarantee a rapid convergence to an optimum solution, the process requires appropriate initial values. These initial values have usually been given manually, making it difficult to analyze a large amount of speech material. The present paper proposes a method for automatically extracting the parameter values from a given F0 contour. The method consists of three steps: approximation of an observed F0 contour by a curve that is continuous and differentiable everywhere, extraction of initial values for the parameters from the curve, and optimization of the parameters by successive approximation. Analysis of read speech material of common Japanese by a male speaker showed that the recall and precision rates of model command estimation reached respectively 82% and 80% by the proposed method, while the rates obtained by a previous method were 78% and 67%, respectively. The recall and precision rates obtained for a female speaker were respectively 83% and 72% by the proposed method, but were respectively 60% and 51% by the previous method. These results demonstrate the validity of the current approach.
著者
峯松 信明 藤澤 友紀子 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.82, no.11, pp.1865-1876, 1999-11-25
被引用文献数
17

日本人によって発声された英単語音声に対する(韻律的)自動評定を目的として,1)英単語音声からの強勢音節検出の自動化,2)提案する強勢音節検出手法に基づいた強勢/弱勢の「音響的適切さ」評定の自動化,について検討した.強勢音節検出においては,音節を単位としたHMMを構築し,その検出を試みた.その際,着目する音節の単語内位置情報/構造情報/コンテクスト情報を導入することでHMMの精度向上を図り,検出性能の改善について実験的に検討した.その結果,同一方言(本論文ではBritish)内では最もカテゴリー数を増やしたHMMにおいて最高平均検出率が得られ,本論文で検討したHMMの高精度化に対する有効性が示された.一方,強勢/弱勢に対する英語としての「音響的適切さ」評定では,強勢音節検出時における「スペクトル」「パワー」「ピッチ」「継続長」の各ゆう度に対する重み係数を変化させ,最高検出率を示す重み(最適重み)を算出し,日本人話者/母語話者間で比較した.その結果,日本人による英単語音声では,ピッチ重みを大きく,スペクトル重みを小さくすることにより検出率が向上するなど,母語話者による英単語音声には見られない傾向(発音上の癖)が観測され,提案手法の,発音能力評定手法としての有効性が示された.
著者
峯松 信明 西村多寿子
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.127, pp.211-216, 2005-12-22

音声コミュニケーションには,話者・環境・聴取者に起因する音響歪みが不可避的に混入する。これら静的な非言語的歪みを数学的にモデル化し,そのモデルの上で,音響歪みを表現する次元を完全に失った音声の物理表象を提案している[1]。個々の音声事象の絶対的な物理特性は一切捨象し,音声事象間の関係のみを,全ての二事象間差異(コントラスト)の集合,即ち,ある幾何学構造として抽出する。この新しい物理表象は,構造音韻論の物理的実装として解釈されている。事象間のコントラストのみを捉える処理は,音楽の相対音感に類似した処理と考えられるが,本稿ではその提案表象を,言語学,心理学,言語障害学,神経生理学,脳科学,及び音楽学の観点から再度考察,解釈する。その中で,音素を音響空間内で定位する従来の方法論の是非について検討する。In speech communication, acoustic distortions are inevitably involved by speakers, channels, and listeners. In our previous study, these distortions were mathematically modeled, and on that model, a novel speech representation was proposed where the distortions cannot be observed [1]. Absolute properties of speech events are completely discarded and only their interrelations are extracted as a full set of phonic differences or contrasts. The set is mathematically equal to a certain geometrical structure. This new representation is considered as physical implementation of structural phonology. Extraction of contrasts between two events is viewed as a process similar to hearing music, i.e., relative pitch. In this paper, the new representation is reconsidered from viewpoints of linguistics, psychology, language disabilities, neurophysiology, brain science, and musicology, Here, the conventional paradigm where a phoneme is localized absolutely at a certain point in an acoustic space is also reconsidered.