著者
櫻庭 京子 今泉 敏 広瀬 啓吉 新美 成二 筧 一彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.749, pp.49-52, 2003-03-20
参考文献数
7
被引用文献数
3

本研究では、男性から女性へ性転換を希望する性同一性障害者(Male to Female transsexuals=MtF)のために音声訓練(ボイス・セラピー)法を確立するために、日本文化圏で女声と判定される基本周波数(F0)の範囲を検討した。その結果80%以上女性と判定されたMtFのF0は180〜214Hzで、平均F0は193Hzとなり、欧米の先行研究より若干値が高くなった。180Hz以下では男声と判定される率が高くなる一方、平均値以上でも「男子の裏声」と判定される場合があり、高さだけでなく声の質も女声と判定されるためには重要であることが示唆された。
著者
櫻庭 京子 丸山 和孝 峯松 信明 広瀬 啓吉 田山 二朗 今泉 敏 山内 俊雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.613, pp.1-5, 2007-03-19
参考文献数
7

著者らは男性から女性へ性別の移行を希望する性同一性障害者(Male-to-Female transgenderd/transsexual=MtF)に対して、声を女性化させるためのtranssexual voice therapy(TVT)を行っている。今回の発表では、MtFの発話音声の分類を試みたので、その分類結果について報告する。今回の分類では、その一試案として発話者MtFの性的指向、男性から女性へ性別を移行したいと考える理由、現在の生活の実態など、音声の音響的な側面のみでなく、発話者の生き様も考慮した。このような分類法は、MtFの生き方の多様性と声の関係を把握するのに有効と考えられ、この研究の本来の目的であるTVTの方法論の確立のためにも必要であると考える。
著者
櫻庭 京子 丸山 和孝 峯松 信明 広瀬 啓吉 田山 二朗 今泉 敏 山内 俊雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.686, pp.29-34, 2006-03-21
被引用文献数
1

著者らは男性から女性へ性別の移行を希望する性同一性障害者(Male-to-Female transgendered/transsexual=MtF)に対して、声を女性化させるためのtranssexual voice therapyを行っており、今回の発表では話者認識技術を用いて知覚的女性度を推定するシステムの臨床応用について検討する。このシステムは、声道特性と音源特性それぞれについて、男声モデル・女声モデルを持ち、各特性別に入力音声の女声度を推定、聴取実験により女性と判定される率(知覚的女声度)の予測値を算出する。上記のシステムを実際の臨床で用いた結果、声道形状を変えながらピッチをあげて女声をつくる方略の完成度を知ることはできるが、発話スタイルの動的制御に基づく女声の生成方略には対応できておらず、今後の検討の課題であることがわかった。
著者
大垣慶介 齋藤大輔 峯松信明 広瀬啓吉
雑誌
第73回全国大会講演論文集
巻号頁・発行日
vol.2011, no.1, pp.541-542, 2011-03-02

本稿では、統計的特徴量変換に基づき、標準フォントから手書きフォントを合成する手法を提案する。<br />手書きフォントは、計算機と人間との文字インターフェースであるフォントに特定の筆者の個人性を反映したものであり、<br />ユーザに特化したインターフェースという観点から重要となる。<br />しかし計算機上で手書きフォントを扱う上で、日本語には漢字の種類が多く、すべての手書きサンプルをとることは困難な問題となる。<br />本研究では、この問題に対し、標準フォントと目的筆者の手書きの少数サンプルとの対応関係を統計的にモデル化し、文字生成に適用する。<br />文字の構成要素である筆画の形状、位置、大きさについて、<br />音声変換で用いられる混合ガウス分布に基づく特徴量変換を適用した。
著者
嵯峨山 茂樹 川本 真一 下平 博 新田 恒雄 西本 卓也 中村 哲 伊藤 克亘 森島 繁生 四倉 達夫 甲斐 充彦 李晃伸 山下 洋一 小林 隆夫 徳田 恵一 広瀬 啓吉 峯松 信明 山田 篤 伝 康晴 宇津呂 武仁
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.14, pp.57-64, 2003-02-07
参考文献数
24
被引用文献数
42

筆者らが開発した擬人化音声対話エージェントのツールキット``Galatea''についてその概要を述べる。主要な機能は音声認識、音声合成、顔画像合成であり、これらの機能を統合して、対話制御の下で動作させるものである。研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果、顔画像が容易に交換可能で、音声合成が話者適応可能で、対話制御の記述変更が容易で、更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり、かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった。この成果はソース公開し、一般に無償使用許諾する予定である。This paper describes the outline of "Galatea," a software toolkit of anthropomorphic spoken dialog agent developed by the authors. Major functions such as speech recognition, speech synthesis and face animation generation are integrated and controlled under a dialog control. To emphasize customizability as the dialog research platform, this system features easily replaceable face, speaker-adaptive speech synthesis, easily modification of dialog control script, exchangeable function modules, and multi-processor capability. This toolkit is to be released shortly to prospective users with an open-source and license-free policy.
著者
河井 恒 広瀬 啓吉 藤崎 博也
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.6, pp.433-442, 1994-06-01 (Released:2017-06-02)
参考文献数
19

規則による日本語の音声合成において、高品質の韻律的特徴を生成しうる規則を作成した。この規則は、アクセント型、統語構造、文の焦点などの言語情報から韻律的特徴を表現する記号を生成する。韻律記号は、3種類の休止記号、4種類のフレーズ記号、及び6種類のアクセント記号からなり、音声の基本周波数パターンを生成するために用いられる。統語構造は、文境界、節境界、ICRLB境界などの統語境界によって表され、主として休止記号とフレーズ記号の生成に用いられる。一方、文の焦点は、韻律語の強調/抑圧として表され、アクセント記号の生成に用いられる。規則によって生成された韻律的特徴の正当性を評価するため、規則作成に用いたものとは別の文章を対象として、規則によって生成された韻律上の単位と職業アナウサが発声した自然音声の韻律上の単位との対応関係を調べた。その結果、両者は70〜90%の高い割合で一致しており、合成音声の自然性とあいまって本規則の有効性が示された。
著者
峯松 信明 中村 新芽 橋本 浩弥 広瀬 啓吉
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2013, no.21, pp.1-6, 2013-12-12

日本語の韻律教育を支援すべく,自然言語処理技術,音声言語処理技術を用いたオンラインアクセント辞書 (Online Japanese Accent Dictionary, OJAD) [1] を構築,運用している。日本語は前後のコンテキストによって単語のアクセントが頻繁に変化する特徴を有するが,アクセント変形に十分対応した日本語教育史上初の教材として,世界中の教育現場で利用されるに至っている。またこれまで,約 4 時間に渡る OJAD 講習会を,国内 10 都市,海外 17 都市で開催しており,どの講習会も好評を博している。OJAD 開発を技術的観点から見ると,アクセント句境界推定,アクセント核位置推定,Fo パターン生成など,音声合成の裏方として機能していた技術を表舞台に出しているに過ぎない。これは音声合成技術の一部を,音声を合成する目的以外に応用している例として考えることができる。本稿では,音声合成技術の応用可能性を考える一つの例として OJAD 開発・運用を捉え,検討する。To support Japanese prosody instruction, the Online Japanese Accent Dictionary (OJAD) [1] has been developed by using NLP and SLP techniques and it is maintained by our laboratory. Japanese is a very unique language in that word accent often changes due to its context. The OJAD was introduced to the Japanese language education community as the first educational system that can handle context-based word accent changes very well and it is actively used by teachers and learners internationally. So far, 4-hour OJAD tutorials have been held at 10 domestic cities and 17 international cities and each tutorial was welcomed to Japanese teachers there. If we discuss development of the OJAD from a technical point of view, the OJAD uses several internal modules of Japanese speech synthesis, such as estimation of accent phrase boundaries and accent nucleus positions, and Fo pattern generation. It is interesting that the OJAD uses these techniques not for synthesizing speech. In this report, by regarding development of the OJAD as one example of using speech synthesis techniques not to synthesizing speech, we discuss new possibility of applying these techniques to new domains.
著者
櫻庭 京子 峯松 信明 広瀬 啓吉 坂野 秀樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.104, no.630, pp.25-29, 2005-01-20

男性から女性へ性別の移行を希望する性同一性障害者(Male to Female transgender/transsexual=MtF)に対する音声治療・訓練を筆頭著者が中心となって行なっている。今回, 本訓練の客観的及び主観的有効性を検証するために, 訓練前後の音声に対する第三者による評価実験を行なうと共に, 訓練効果に対する患者本人の満足度について調査した。さらに話声位のF0(基本周波数)の変化を調べた。その結果, 第三者の聴取実験において訓練前は全ての聴者から男性と判定されていた患者が, 二ヶ月の訓練後では, 聴者の約九割に女性と判定されるに至った。患者自身も凡そ声の変化の様子に満足しているとの結果が得られている。F0は成人男性の平均値から成人女性の平均値に移行した。
著者
峯松 信明 中村 新芽 橋本 浩弥 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.113, no.366, pp.129-134, 2013-12-12

日本語の韻律教育を支援すべく,自然言語処理技術,音声言語処理技術を用いたオンラィンアクセント辞書(Online Japanese Accent Dictionary, OJAD)を構築,運用している。日本語は前後のコンテキストによって単語のアクセントが頻繁に変化する特徴を有するが,アクセント変形に十分対応した日本語教育史上初の教材として,世界中の教育現場で利用されるに至っている。またこれまで,約4時間に渡るOJAD講習会を,国内10都市,海外17都市で開催しており,どの講習会も好評を博している。OJAD開発を技術的観点から見ると,アクセント句境界推定,アクセント核位置推定,F_0パターン生成など,音声合成の裏方として機能していた技術を表舞台に出しているに過ぎない。これは音声合成技術の一部を,音声を合成する目的以外に応用している例として考えることができる。本稿では,音声合成技術の応用可能性を考える一つの例としてOJAD開発・運用を捉え,検討する。
著者
齋藤 大輔 山本 敬介 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.111, no.322, pp.7-12, 2011-11-21

本稿では,話者空間をテンソル形式によって表現することにより,柔軟に話者性を制御することが可能となる新しい手法を提案する.声質変換の研究において,任意話者の音声を入力または出力として,変換を実現する手法はアプリケーション応用の観点からも非常に重要な技術であるといえる.任意話者声質変換を目的とする技術として,固有声混合正規分布モデル(EV-GMM)に基づく固有声変換法(EVC)が提案されている.EVCにおいては,話者認識でよく用いられるアプローチと同様に,各話者GMMの正規分布の平均ベクトルを連結して得られるGMMスーパーベクトルをもとに話者空間が構築される.構築された話者空間上において,個々の話者は固有スーパーベクトルに対する少数の重みパラメータによって表現することが可能となる.本稿では,話者空間を構築するための事前学習話者データに対して,テンソル解析を導入することによって話者空間を構築することを検討する.本研究における提案手法では,個々の話者はスーパーベクトルではなく行列によって表現される.この話者を表す行列の行及び列は,それぞれ音響特徴量の平均ベクトルの次元及びガウス分布の要素に対応する.ここで,これらの行列のセットに対してテンソル解析を導入することで話者空間が構築される.提案法は,話者情報のスーパーベクトル表現に内在する問題点に対する解法となっており,任意話者声質変換の性能向上が期待できる.本稿では,一対多声質変換において,提案する話者空間表現を導入することで,その有効性を示す.
著者
ポンキッティパン ティーラポン 齋藤 大輔 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.112, no.81, pp.7-12, 2012-06-07

本稿ではeigenvoiceに基づくキャラクター変換の一手法を提案する。273名の話者から構築したeigenvoice話者空間と,セミプロの声優から収録した三種類のキャラクタ声を用いて,キャラクター変換を実装する。ここでは任意の入力話者に対して,その話者の個人性を保存しつつ,声のキャラクターのみを変換する。母語話者及び非母語話者を対象に,キャラクター変換前後の合成音声を用いた聴取実験を行なった。その結果,意図されたキャラクター差異が十分に知覚されることが示された。更に,セミプロの声優による二キャラクターにおいて基本周波数差異が小さい場合でも,対応する合成音声から,十分にキャラクター差異を知覚できることが示された。これは,キャラクター変換の場合,スペクトルに基づく変換が不可欠であることを意味している。また,セミプロによる三キャラクタ声と提案手法による三キャラクタ声との音響分析により,本提案手法が適切な変換を実装できていることも確認できた。
著者
成澤 修一 峯松 信明 広瀬 啓吉 藤崎 博也
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.7, pp.2155-2168, 2002-07-15
被引用文献数
18 4

藤崎らによる音声の基本周波数パターン($F_0$ パターン)生成過程のモデルは,少数のパラメータから実測の $F_0$ パターンにきわめて近いパターンを生成しうることが知られており,音声合成に広く用いられている.一方,実測の $F_0$ パターンからモデルのパラメータを抽出することは解析的には解けない逆問題であり,初期値を与え逐次近似を行う必要がある.この場合,高精度のパラメータを迅速に抽出するには適切な初期値の設定が不可欠であるが,従来はこれを人手によって行っていたため,大量の音声資料の自動的処理は困難であった.本論文では,実測の $F_0$ パターンからパラメータの初期値を自動的に決定し,さらにそれに基づいて高精度のパラメータ抽出を自動的に行う手法を提案する.この手法は,実測された $F_0$ パターンをいたるところで連続かつ微分可能な曲線によって近似するための処理,得られた曲線からアクセント指令とフレーズ指令のパラメータの初期値を決定するための処理,さらにそれらの初期値をもとに逐次近似によりパラメータの最適値を求める処理,の3段階の処理からなる.共通日本語の男性・女性話者各1名の朗読音声を対象とした実験の結果,男性の朗読音声について,以前に提案された手法では,パラメータ抽出の性能として,指令の再現率78%,精度67%であるのに対し,提案手法によればそれぞれ82%,80%であった.また,女性の朗読音声については,従来手法では再現率60%,精度51%であるのに対し,提案手法ではそれぞれ83%,72%であった.この結果から,本手法の有効性が実証された.The model for the generation process of the fundamental frequency contours (F0 contours) of speech by Fujisaki et al. is known to be capable of generating F0 contours quite close to observed natural contours, and is widely used in speech synthesis. The extraction of model parameters from an observed F0 contour, however, is an inverse problem that cannot be solved analytically, and requires an iterative process starting from a set of initial parameter values. In order to guarantee a rapid convergence to an optimum solution, the process requires appropriate initial values. These initial values have usually been given manually, making it difficult to analyze a large amount of speech material. The present paper proposes a method for automatically extracting the parameter values from a given F0 contour. The method consists of three steps: approximation of an observed F0 contour by a curve that is continuous and differentiable everywhere, extraction of initial values for the parameters from the curve, and optimization of the parameters by successive approximation. Analysis of read speech material of common Japanese by a male speaker showed that the recall and precision rates of model command estimation reached respectively 82% and 80% by the proposed method, while the rates obtained by a previous method were 78% and 67%, respectively. The recall and precision rates obtained for a female speaker were respectively 83% and 72% by the proposed method, but were respectively 60% and 51% by the previous method. These results demonstrate the validity of the current approach.
著者
齋藤 大輔 松浦 良 朝川 智 峯松 信明 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.406, pp.189-194, 2007-12-13
被引用文献数
6

本報では,ケプストラムベクトルの方向成分が声道長の変化に対して強く依存していることを理論的,実験的に示す.さらにこの依存性がn次元のケプストラム空間における回転として表出されることを示す.音声認識の研究においては,年齢や性別の違いといった歪みを取り除くため,声道長正規化(VTLN)とよばれる技術が広く用いられている.VTLNはスペクトルドメインにおける周波数ウォーピングによって実現されるが,ケプストラムドメインでは線形変換c=Acとして表現する事ができる.しかしこの変換行列Aの幾何学的な性質に関しては今まで十分に議論されてこなかった.本研究ではn次元空間における幾何学を通して,これらの変換が全てのケプストラムベクトルをおよそ等しく回転させる事を示す.さらに分析再合成音を用いて,実際にケプスラムベクトルが回転している事を実験的に確認した.身長180cmの話者と身長120cmの話者を比較した場合,そのケプストラムベクトルがおよそ直交していることがわかった.本報の結果から従来の音声認識システムが子供の声のような特異音声を苦手とする一因を定量的に示す事ができた.
著者
川瀬 佑司 峯松 信明 齋藤 大輔 広瀬 啓吉 沈 涵平
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2014-MUS-103, no.27, pp.1-6, 2014-05-17

国際共通語である英語は、それぞれの国や地域の母語干渉により、多様な発音、所謂訛りが存在することが知られている。筆者らの先行研究では、様々な英語発音に対して話者を単位とした自動分類を検討している。ボトムアップ的な分類を行う場合、一般的には対象とする要素群に対して要素間距離行列が必要となる。先行研究では任意二話者間の発音距離の自動推定を行っている。この距離行列を可視化する場合には、多次元尺度法 (Multi-Dimensional Scaling, MDS) や樹形図を用いることが多い。本研究ではこれらに代わる、発音距離行列に対する新しい可視化手法を提案する。従来の可視化は、距離行列全体を表現することが狙いである。しかし可視化結果を呈示される特定の学習者にとってみれば、知りたい主情報は自分とそれ以外の話者の関係性である。そこで本研究では、特定話者とそれ以外の話者の発音距離に着目し、さらには年齢や性別といった情報も含め、英語発音の自己視点からの可視化を提案する。提案手法では従来手法と異なり、可視化結果に歪みが全く生じないことが保証されている。
著者
鎌田 圭 朝川 智 峯松 信明 牧野 武彦 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.73-78, 2007-07-19
被引用文献数
1

音声コミュニケーションは,音声の生成,収録,伝送,再生,聴取の何れの過程においても非言語的特徴が不可避的に混入するが,これを表現する次元をおよそ保有しない音響的普遍構造が提案されている.この構造的表象を用いて,発音矯正の必要度を学習者別に推定可能であることが実験的に示されている.本稿では,この推定方法が教育的に妥当であるかを,英語音声学を専門とする音声学者による学習者発音の母音図表記を通して検討する.また,この推定方法について,改善可能な点を示し,より妥当な推定方法を検討する.
著者
河井 恒 広瀬 啓吉 藤崎 博也
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.50, no.6, pp.433-442, 1994-06-01
参考文献数
19
被引用文献数
8

規則による日本語の音声合成において、高品質の韻律的特徴を生成しうる規則を作成した。この規則は、アクセント型、統語構造、文の焦点などの言語情報から韻律的特徴を表現する記号を生成する。韻律記号は、3種類の休止記号、4種類のフレーズ記号、及び6種類のアクセント記号からなり、音声の基本周波数パターンを生成するために用いられる。統語構造は、文境界、節境界、ICRLB境界などの統語境界によって表され、主として休止記号とフレーズ記号の生成に用いられる。一方、文の焦点は、韻律語の強調/抑圧として表され、アクセント記号の生成に用いられる。規則によって生成された韻律的特徴の正当性を評価するため、規則作成に用いたものとは別の文章を対象として、規則によって生成された韻律上の単位と職業アナウサが発声した自然音声の韻律上の単位との対応関係を調べた。その結果、両者は70〜90%の高い割合で一致しており、合成音声の自然性とあいまって本規則の有効性が示された。
著者
成澤 修一 峯松 信明 広瀬 啓吉 藤崎 博也
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.43, no.7, pp.2155-2168, 2002-07-15

藤崎らによる音声の基本周波数パターン($F_0$ パターン)生成過程のモデルは,少数のパラメータから実測の $F_0$ パターンにきわめて近いパターンを生成しうることが知られており,音声合成に広く用いられている.一方,実測の $F_0$ パターンからモデルのパラメータを抽出することは解析的には解けない逆問題であり,初期値を与え逐次近似を行う必要がある.この場合,高精度のパラメータを迅速に抽出するには適切な初期値の設定が不可欠であるが,従来はこれを人手によって行っていたため,大量の音声資料の自動的処理は困難であった.本論文では,実測の $F_0$ パターンからパラメータの初期値を自動的に決定し,さらにそれに基づいて高精度のパラメータ抽出を自動的に行う手法を提案する.この手法は,実測された $F_0$ パターンをいたるところで連続かつ微分可能な曲線によって近似するための処理,得られた曲線からアクセント指令とフレーズ指令のパラメータの初期値を決定するための処理,さらにそれらの初期値をもとに逐次近似によりパラメータの最適値を求める処理,の3段階の処理からなる.共通日本語の男性・女性話者各1名の朗読音声を対象とした実験の結果,男性の朗読音声について,以前に提案された手法では,パラメータ抽出の性能として,指令の再現率78%,精度67%であるのに対し,提案手法によればそれぞれ82%,80%であった.また,女性の朗読音声については,従来手法では再現率60%,精度51%であるのに対し,提案手法ではそれぞれ83%,72%であった.この結果から,本手法の有効性が実証された.
著者
渡辺 美知子 広瀬 啓吉 伝 康晴 峯松 信明
出版者
一般社団法人日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.62, no.5, pp.370-378, 2006-05-01
被引用文献数
7

自発発話において,直前にフィラーのある,句や節などの主要構成素は,そうでない主要構成素に比べ,長い傾向がある。そのような傾向を聴き手が経験的に把握し,フィラーを,後続句の長さや内容の複雑さを予測する手掛かりとして用いているかどうかを,句境界のフィラー,「エート」について調べた。「エート」の後続句が指し示す対象を聴き手が同定するのにかかる時間は,「エート」がない場合と比べ,後続句が長い場合のみ短く,後続句が短く単純な場合は有意差がなかった。この結果から,句境界の「エート」は聴き手にとって,後続句の長さ,内容の複雑さを知る上での手掛かりとなっていることが示唆された。