著者
峯松 信明 志甫 淳 村上 隆夫 丸山 和孝 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.98, pp.9-12, 2005-05-20
被引用文献数
19

音声に不可避的に混入する静的な非言語的特徴を表現する次元を有しない, 音声の構造的表象が提案されている(音響的普遍構造)。音声事象を全て分布として記述し, 全ての二分布間距離を正規化相互相関として求め, 事象群全体を一つの構造として捉える。得られた構造はアフィン変換でモデル化される静的な非言語的特徴によって歪むことがない。これは言語学的には構造音韻論の物理実装, 認知心理学的には音声ゲシュタルトとして解釈できる物理表象である。本稿では, 異なる2つの発声が各々構造的に表象された場合の距離尺度, 即ち構造間距離尺度の導出を行なう。まずユークリッド空間に存在する2つのN点構造間距離を導出し, 次にその近似解について検討する。
著者
中山 一郎 天野 文雄 上畠 力 河内 厚郎 小島 美子 小林 範子 杉藤 美代子 高木 浩志 柳田 益造
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.561, pp.47-54, 1998-02-20
被引用文献数
2

本稿は、筆者らが遂行している、日本語の歌唱表現法に関する学際的研究の紹介である。日本語を洋楽的唱法で歌唱する場合、日本語としてのニュアンスや自然さが失われ、"何を言っているのか解らない"という深刻な事態を招いている。その克服には、古来、日本話の扱いに工夫を重ねて発展してきた伝統芸能(広義の邦楽)との歌唱表現法の比較が不可欠であると考えられるが、そのための方法論すら無い現状である。本研究は、共通の歌詞を、多数の人間国宝を含む、各ジャンルにおける最高クラスの演者に"歌い分け"を行わせ、得られた高品質の音声試料を音響分析することにより、邦楽と洋楽における歌唱表現法の普遍的な差異、及び同一性を科学的に明らかにすることを目的とする。本稿では、研究の具体的な方法論、予想される結果、及び研究の展望について述べる。
著者
園田 智也 後藤 真孝 村岡 洋一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.560, pp.25-32, 1998-02-19
被引用文献数
3 7

本稿では、WWW上で動作する、歌声の旋律からその曲のタイトルを検索するシステムについて述べる。歌声による検索では、入力の旋律情報(音高・音長)が正確とは限らないため、閾値によってそれらを粗い旋律情報に変換したものを検索キーとし、データベースの曲とのマッチングを行なう。しかし、このための適切な閾値の設定は難しく、特に音長情報においては、有効な検索キーを得ることが困難であった。また、粗い旋律情報では正答の絞り込みも難しい。そこで、本研究では(1)有効な検索キーを得るための最適な閾値を設定する手法、(2)データベースの曲から正答の曲の候補を精度良く絞り込むためのマッチング手法の2つを提案することで、従来手法よりも正答率の高い検索を実現し、WWW上で複数の利用者が活用できるシステムを構築できた。
著者
橋本 誠 樋口 宜男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.95, no.41, pp.1-8, 1995-05-18
被引用文献数
5

本稿では、話者選択と移動ベクトル場平滑化(VFS: Vector Field Smoothing method)による、声質変換を目的としたスペクトル写像法(SSVFS: spectral mapping using Speaker Selection and VFS)を提案した。本手法は、予め複数登録話者の音声データを準備しておき、次の3つのステップによりスペクトルの写像を行なう。(1)話者選択により、目標話者に最も近い登録話者を1名選択し、(2)VFSにより、選択された話者のスペクトルコードブックから目標話者空間への移動ベクトルを求め、(3)移動ベクトルを用いて、選択話者から目標話者へ、任意の発話内容のスペクトル写像を行なう。話者選択を用いることにより、比較的距離の近い話者間で写像が行なえるため写像による誤差を抑えることができ、またVFSを用いることにより、少ない学習データでスペクトル写像を行なうことが可能となる。本手法を、1単語のみの学習により、目標話者を男女各4名、評価音声を50単語として平均ケプストラム距離で評価した。また、目標話者男女各1名に対する聴取実験による評価も行なった。実験の結果、(1)変換音声と目標話者音声との平均ケプストラム距離は、選択話者音声と目標話者音声との距離よりも減少すること(全目標話者平均減少率:約24.5%、最大減少率:約40.7%)、(2)約66%の割合で変換音声が選択話者音声より目標話者音声に似ていると判定され、VFSを用いない場合より高い判定率を得ること、が明らかとなり、本手法の有効性が示された。
著者
Galescu Lucian
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.108, pp.37-42, 2002-05-24
参考文献数
19
被引用文献数
2

現在の音声認識は認識対象語彙がそのドメインに頻出するものに限定されている。しかしながら、未知語の存在は不可避である。多くの場合、未知語は意味的に重要であるため、最近ではこれを検出したり分離するばかりか、その自動書き下しを目指した研究が活発化している。しかし、タスクが非常に限定された場合ですら未だ成功はおぼつかない。本報告では、発音とその音韻表記の対応関係に注目した未知語の副次的なモデリングによる語彙制約なし音声認識の新たなアプローチを提示するとともに、これを大語彙音声認識タスクに適用した結果、良好な結果が得られたので報告する(文責:担当幹事)。
著者
内部 利明 黒岩 眞吾 樋口 宜男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.317, pp.1-8, 1998-10-15
被引用文献数
11

数字による個人の識別や確認の手法は、クレジット番号や暗証番号等、広く普及しており、音声を用いた話者照合においても数字を用いることは利用者にとっても自然であると考えられる。本稿では、電話回線経由で収集した連続数字発声を用い、隠れマルコフモデル(Hidden Markov Model ; HMM)による話者照合方式の検討を行う。まず話者モデルを学習する方法について検討し、各話者の数字モデルの学習方法を提案する。更に、この数字モデルを用いた話者照合方式を検討し、テキスト指定型およびテキスト依存型において話者照合性能を評価するとともに、音素モデルを用いた場合との性能比較を行う。
著者
加藤 恒夫 黒岩 眞吾 清水 徹 樋口 宜男
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.136, pp.1-8, 2000-06-15
被引用文献数
6

話者クラスタリングは音響的に近い話者集合を作成する方法であり, 話者集合毎に音響モデルを学習することで特定の話者集合にチューニングされたモデルが得られる.従来の報告では少ない話者数(数十名から数百名)の音声を学習データとして用いているが, 多数話者の音声を学習データに用いれば, 1話者クラスタあたりのデータ量が増加しモデルパラメータの推定精度が向上すること, 任意の話者に近い話者集合の音響モデルを認識に利用できることにより認識性能の改善が期待できる.本稿では, 1, 000名規模の電話音声データベースを用いで話者クラスタリングを行い, 学習データの話者数の増加に伴い認識率が上昇することを確認した.また, 話者集合の作成が理想的に行われた場合の認識率を求めることを目的として, 従来の尤度に基づく方法に替えて, 認識対象の話者に対して高い認識率を与える話者のデータからモデルを学習したところ, 不特定話者モデルと特定話者モデルの性能差の約60%を改善可能であることがわかった.
著者
西村 竜一 秋田 祐哉 須藤 克仁 大庭 隆伸
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.444, pp.61-66, 2006-12-15

本稿では,2006年9月アメリカ合衆国ピッツバーグにおいて開催された国際会議Interspeech2006-ICSLPにおける研究動向を報告する.サーベイ二部構成の後編にあたる本編では,音声認識システム,言語モデル,言語処理関連,音声対話,音声検索,要約,翻訳等のトピックを中心に報告する.
著者
加藤 圭介 野沢 和典 山下 洋一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.519, pp.223-228, 2003-12-11
被引用文献数
1

本報告では、日本人英語学習者の英文発話における韻律を自動評定する手法について述べる。学習者と英語母語話者の発話を比較し、基本周波数、パワー、発話長の類似度を算出して韻律パラメータとする。2つの発話を比較する際には単語や単語境界部など様々な比較単位ごとに比較し、比較単位による結果の違いを考察した。また、基本周波数とパワーに関してはパターン距離などの従来手法に加え、回帰曲線近似誤差を用いた評定手法を提案し、評定結果の妥当性を検証した。さらに、複数の韻律パラメータを組み合わせ、学習者発話の韻律を評定するモデルを作成した。
著者
由浅 裕規 水野 智士 伊藤 敏彦 甲斐 充彦 小西 達裕 伊東 幸宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.519, pp.199-204, 2003-12-11
被引用文献数
1

本稿では,状況及び文脈を利用した言語理解手法をもつ音声対話システムの構築と,その有効性を示すための評価実験について述べる.システムに対する発話方法を「対象を操作」,又は嘱性は値」という文体に制限することで認識率の向上を図り,また一入力だけでなく連続的に複数の入力を一発話で行えるようにシステムを構築した.タスクとしてはエアコン・カーステレオの操作を想定し,その音声インタフェースという具体的な状況設定において,被験者20名による評価実験を行った.対話の分析を行うことによって,状況及び文脈を利用した言語理解の有効性,制限された発話方法における言語的な特徴や複数設定発話に関するユーザ意識など,様々な知見を得ることができた.
著者
熊谷 建一 中村 哲 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.100, no.522, pp.67-72, 2000-12-14
被引用文献数
5

近年, 音声認識の性能は大きく改善されたが, さらに, 音声のSNRが低い雑音環境での高い音声認識性能が求められている.そのような環境に適した音声認識システムとして, 音声情報と唇周辺の動画像を用いたバイモーダル音声認識が注目されている.このようなシステムを構築するためには, 音声情報と画像情報の統合が重要な問題となる.統合においては, (1)音声を発話する前に発声の準備のために唇が動き, 発話が終わった後に遅れて唇が閉じるといったような, 音声と唇周辺の動きの非同期性, (2)周辺環境に応じたシステムの適応化, といった問題がある.本稿では, まず(1)の問題に対し, 音声と唇周辺の動きの非同期性を考慮するHMM合成に基づいた統合を行う.次に(2)の問題に対しては, GPDアルゴリズムを用い, 少数の環境適応用のデータ(以下適応データ)からストリーム重みを推定することを検討する.音響的な雑音がある場合について, 単語認識実験を行った結果, 認識性能が改善されることが示された.
著者
駒澤 寛士 松本 敏明 縄手 雅彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.434, pp.25-29, 2008-01-17
被引用文献数
1

視知覚能力において重要な視覚と運動の協応の能力を鍛えるために、物体の動きを予測してスイッチを押すというゲーム形式の訓練ツールを開発した.協力者は松江清心養護学校に通う小学2年生の脳性麻痺児2名で,マウスを使う事ができない.そこでインターフェイスにワンボタンスイッチを用いた.訓練を行った結果,目標とするところとは明らかに異なっているタイミングでスイッチを押すことがあった.これは,"失敗"の時のアクションが楽しい,ゲームに飽きが生じて集中力が切れた,訓練に疲れたことによって起こると考えられる.このため,押すべき時だけ押してもらう工夫が必要であることがわかった.
著者
竹内 博樹 荒井 秀一 城戸 健一 三井田 惇郎
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.396, pp.19-26, 1997-11-21
被引用文献数
3

本研究は、マスメディア上に流れる大量の音声データから必要な情報を検索する手段として、ニュース音声を対象にHMMを用いたワードスポッティングの利用を検討する。ワードスポッティングは、音韻情報に基づいて行われるため音声中によく似た音素列が存在するとキーワードとして誤検出される。そこで本研究では、キーワードの音素数と湧き出し数の関係について比較実験を行った。また、キーワードの調音点の変化に注目して、キーワードの推定出力尤度と実際に出力された尤度の関係について調べた。
著者
今井 亨 シュワルツ リチャード
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.97, no.115, pp.75-82, 1997-06-20
被引用文献数
4

放送ニュース音声あるいはテキストからの話題抽出は、ストーリーの分類や検索、あるいは大語彙連続音声認識における言語的制約への利用が期待できる。本報告では、放送ニュースの各ストーリーから、関連する詳細な話題を複数個、同時に抽出するというタスクを設定し、数千の話題を対象にする。提案する話題混合モデルは、話題が単語毎に遷移し、話題毎の単語出力確率に従って、話題が単語を出力するというモデルであり、どの話題も意味しない一般的な単語を吸収するための特別な話題を持つ。話題混合モデルは一種のHMMであり、EMアルゴリズムによって、各話題は、その話題を直接意味する単語 (キーワード) をより多く出力するように学習される。英語ニュースのテキストおよび音声認識結果を入力とした話題抽出実験において、従来モデルよりも高い話題適合率を示した。
著者
中川 聖一 伊田 政樹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.449, pp.45-52, 1997-01-17
被引用文献数
1

音声認識システムの評価を行なうにあたって、タスクの複雑性を表す尺度として一般にパープレキシティ (perplexity) が多く用いられている。パープレキシティは情報理論的な意味での平均分岐数を表し、各時点における同定すべき単語数に相当する。しかしこの尺度では文の長さや各時点での分岐数の偏りの正規化が不十分なためにタスクの複雑性を厳密に反映した尺度であるとはいえない。そこで、本稿では音声認識部を統計的にシミュレートしてタスクの複雑性と認識率の関係について検討し、新しいタスクの複雑性の尺度としてSMR-Perplexity (Square Mean Root Perplexity) を提案する。さらに実際の統計的言語モデルを用いた連続音声認識システムの評価に本手法を適用し、本手法の有効性を示す。
著者
大浦 圭一郎 全 炳河 南角 吉彦 李 晃伸 徳田 恵一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.338, pp.215-220, 2008-12-02

本報告では隠れマルコフモデル(Hidden Markov Model; HMM)に基づく音声合成システムにおける共分散パラメータの共有について述べる.近年,音声合成システムへの需要が高まっており,HMMに基づいた音声合成システムでは音声波形の断片をそのまま利用するのではなく,音声波形の特徴をHMMによりモデル化し,HMMのモデルパラメータを合成システムに保持するため,同程度の音質の波形接続法式に比べてフットプリントが小さい利点がある.中でも組み込み向けのシステムには携帯電話,PDA,カーナビ,情報家電,ゲーム機等への用途があるが,必要なCPU,メモリ等が制限されることが多く,更なるフットプリントの縮小が必要である.HMMに基づく音声合成システムにコンテキスト依存モデルを用いることで高精度な音響モデルを構築することができ,決定木に基づくコンテキストクラスタリングを用いて状態共有構造を構築する際に,組み込み用途向けに決定木のサイズを小さくすることも考えられるが,音質が劣化する.本報告では,平均に比べて共分散が音質に与える影響が小さいことに注目し,全てのパラメータの共分散を共有する手法を提案する.このパラメータ共有を仮定した上でのコンテキストクラスタリングを行い,主観評価実験により,パラメータ数を大幅に削減するのみならず,若干の品質改善を達成した.
著者
西口 正之 井上 晃 前田 祐児 松本 淳 田中 直也
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.424, pp.27-34, 1998-11-20
被引用文献数
5

本稿では、MPEG-4標準化に提案中の低ビットレート音声符号化方式Harmonic Vector eXcitation Coding(HVXC)について、その構成を説明する。HVXCは2.0kbpsおよび4.0kbpsの固定ビットレートモードと、2.0kbps以下の可変ビットレートモードを有している。符号化アルゴリズムとして、有声音部分においてはLPC残差のハーモニックコーディングを、無声音部分においてはCELP方式を用いることで低ビットレートでも良好な音声品質を得ている。主な特徴として、4.0kbpsのビットストリームのサブセットを用いて2.0kbpsで復号するビットレートスケラビリティー機能、音韻やピッチを変えずに再生スピードをコントロールする機能などがある。98年8月のMPEGの公式主観評価試験の結果、2.0kbps HVXCの音質は4.8kbpsのFS1016 CELPの音質よりも優れていることが確認された。HVXC音声符号化方式は1998年10月にMPEG-4 Final Draft International Standard(FDIS)に選定された。
著者
五十嵐 陽介 馬塚 れい子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.106, no.443, pp.31-35, 2006-12-14
被引用文献数
2

乳幼児は母親や周囲の人間の話し言葉を聞くことにより言語を獲得する。言語獲得の入力となるこのような話し言葉は、「マザリーズ」(motherese)あるいは"Infant-Directed Speech"(IDS)と呼ばれる。IDSは大人に向けて話される言葉と異なることが知られているが、言語発達の研究のためには、IDSの性質を理解することが不可欠となる。本講演では、我々が言語発達の研究目的で構築した『理研日本語母子会話コーパス』を紹介する。この音声データベースは、母親22人による自分の子供(17〜24ヶ月)に向けた発話、および大人に向けた発話を格納している。このコーパスは、約14時間の音声信号とともに、転記テキスト、分節音情報、形態論情報、韻律情報を検索可能な形で与えている。講演の最後では、コーパス使用法の例としてIDSの発話速度の分析結果を示す。
著者
吉田 有里 森勢 将雅 高橋 徹 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.282, pp.31-36, 2007-10-18
被引用文献数
3

数分にわたる曲全体を一括して分析することのできる新しく開発されたTANDEM-STRAIGHTを用い、プロ歌手によるポップス系歌唱を分析して得られた歌唱音声中の母音スペクトルの統計的性質を調べた。分析には、男女各一名による歌唱音声が用いられた。STRAIGHTスペクトルから求められたMel帯域フィルタ出力とMFCCの主成分分析の結果は、いずれも第5主成分までに全分散の90%以上が含まれることを示した。また、求められた固有ベクトルとMFCCの基底関数の張る空間が類似する傾向が認められた。歌唱音声は、話声と比較して、基本周波数、発声のパワー、歌唱法などによるスペクトル変動が大きく、各母音の分布は元のパラメタ空間においても、低次の主成分で張られる空間においても、大きく重なっている。これらの結果が、母音情報に基づく音声変換法においてどのような意味を持っかについて議論する。
著者
青木 直史 伊福部 達
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.565, pp.25-32, 1997-03-06
被引用文献数
4

持続発声母音の自然性の要因として、ピッチゆらぎ(ジッタ)および振幅ゆらぎ(シマ)が重要な役割を担っていることが知られている。本研究では、これまでの報告で考察されているものよりも長時間のジッタおよびシマの解析から、これらが1/f^βゆらぎ、ここで、β≃1の特徴を示すことを明らかにした。さらに、1/fゆらぎとしてモデリングしたジッタおよびシマが、白色特性のジッタおよびシマよりも、正常な持続発声母音の知覚を喚起させるうえで有効であることを音響心理実験によって明らかにした。