著者
陸 金林 安藤 裕司 粕谷 英樹
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.48, no.9, pp.642-648, 1992-09-01 (Released:2017-06-02)
参考文献数
20
被引用文献数
2

本論文では音声音源波形を生成するために拡張したRosenberg-Klattモデル(RKモデル)を述べ、音声信号から半自動的にモデルパラメータを精度よく推定する方法を提案する。また、音声音源特性と発声様式の関係を調べる。弱い発生などによく見られる相対的に強い基本波成分を生成するため、RKモデルに一つのパラメータを追加する。音源パラメータの推定は声門逆フィルタリングとモデルパラメータの抽出の2段階からなっている。声門逆フィルタに用いられるホルマント周波数とバンド幅の推定には、我々が最近提案した複数閉鎖区間線形予測分析法(MCLP)を用いる。男性2名が異なる強さと高さで発声した母音サンプルを用いて音源パラメータを分析した。その結果、モデルパラメータの幾つかは発声の強さ及びピッチ周波数と系統的に関係することを示した。
著者
坂野 秀樹 陸 金林 中村 哲 鹿野 清宏 河原 英紀
出版者
電子情報通信学会
雑誌
電子情報通信学会論文誌. D-2, 情報・システム 2-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.83, no.11, pp.2276-2282, 2000-11-25
参考文献数
8
被引用文献数
5

音声の位相情報を群遅延に基づいて表現することにより, 位相特性の制御を可能とする声質制御方式を提案する.提案方式は, 位相特性を群遅延領域で制御するため, 原音声の位相から零位相まで連続的に変化させることができる.また, 音声の特徴に基づき部分的に零位相化を行っているため, PSOLA法などの手法で見られる, ピッチ変換率を大きくしたときの劣化を軽減させることができる.ピッチ変換音声を作成して主観評価実験を行った結果, ピッチ変換率が1倍の場合に, 零位相合成, PSOLA法, 提案法のMOS値が, 男声の場合はそれぞれ3.6, 4.3, 4.3, 女声の場合はそれぞれ, 3.8, 4.2, 4.3であった.ピッチ変換率が3倍の場合には, それぞれの方式のMOS値が, 男声の場合に2.8, 2.4, 2.7, 女声の場合に1.6, 1.4, 1.7となった.これらの結果から, 提案方式は, ピッチ変換率が小さい場合には, PSOLA法に匹敵する高品質な音声が合成でき, ピッチ変換率を大きくした場合には, PSOLA法特有の劣化を減少させることができることがわかった.また, 本論文では, ピッチ変換を行った際にどのように位相特性を変化させるのが適当であるかについても検討し, ピッチを上昇させた際に位相特性を零位相に近づけると, 劣化が若干抑えられることがわかった.
著者
坂野 秀樹 陸 金林 中村 哲 鹿野 清宏 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.177, pp.15-20, 1997-07-17
被引用文献数
9

これまで音声の短時間位相は振幅情報に比べると聴覚的に重要でないという理由でなおざりにされてきた. しかし, 高品質な音声合成や符号化を考えた場合, それは必ずしもあてはまる訳ではなく, 短時間位相も合成音の品質に大きく関わってくる. ところが, 振幅スペクトルにはいくつかのパラメータ化法が確立されており効率的な表現が可能なのに対し, 短時間位相にはそのような方法は確立されていない. そこで, 短時間位相を効率良く表現する方法を提案し, 主観評価及び客観評価の両方から提案手法の有効性を示す.
著者
鹿野 清宏 川波 弘道 李 晃伸 猿渡 洋 陸 金林 中村 哲
出版者
奈良先端科学技術大学院大学
雑誌
基盤研究(C)
巻号頁・発行日
1998

話者適応、環境雑音適応、タスク向き話し言葉言語モデル構築の研究が大いに進展し、当初の目的を十分に達成した。以下、簡単に項目ごとにまとめる。1 教師なし話者適応アルゴリズムの考案と評価話者選択と十分統計量に基づく教師なし話者適応アルゴリズムを考案した。発声者が任意の1文を発声するだけで、その発声者に近い話者のHMM十分統計量から発声者に適応した高精度な音韻モデルが構築できた。2 教師なし環境雑音適応アルゴリズムの考案と評価十分統計量を用いた教師なし話者適応アルゴリズムを、環境雑音適応と同時に実行できるアルゴリズムに拡張した。さらに、スペクトルサブトラクション法の導入により、話者・環境同時適応の性能を向上させた。3 タスク向き話し言葉言語モデルと音声対話システムの構築Webの検索エンジンと、言語識別として文字トライグラムを用いたコーパス自動収集システムを構築して、言語モデルの自動作成アルゴリズムを開発した。さらに、受付案内ロボットによる音声認識応答による学内案内システムを構築して、開発してきたアルゴリズムの実環境下における有効性の確認およびデータ収集を開始した。4 開発アルゴリズムの普及開発してきた話者適応、環境適応、タスクアルゴリズムを、研究代表者が代表をつとめている情報処理学会の「連続音声認識コンソーシアム」を通して、企業、大学への普及の努力を行ってきた。本科学研究補助金の関連発表は、平成10年から13年までで、学術論文15件、著書1件、解説3件、国際会議19件、研究会22件、大会講演33件である。
著者
中山 彰 陸 金林 中村 哲 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DSP, ディジタル信号処理 (ISSN:09135685)
巻号頁・発行日
vol.98, no.262, pp.57-62, 1998-09-11
被引用文献数
3

近年、ディジタル著作物の著作権を守る手段として電子透かし技術が開発されてきている。電子透かしは聴覚的には聴こえないということが重要であり、それを考慮した透かしアルゴリズムのひとつとしてLaurenceらの提案するMPEG心理音響モデルを用いた電子透かし法がある。ただこの方法は同時マスキングのみを考慮したものである。そこで本稿では心理音響実験の知見を用いて継時マスキングの定式化を行ない、それをLaurenceらの方法に導入し、もともとの方法との比較を行なった。その結果、両手法とも透かしの入った音楽でも高い品質を保っていることが明らかになった。また継時マスキングを組み込んだ場合の透かしの強度では、MPEGの符号化に対してLaurenceらの提案手法より、若干の改善が見られた。