著者
田原 佳代子 高橋 徹 森勢 将雅 坂野 秀樹 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.198, pp.19-24, 2005-07-14

歌唱音声のパラメタ(ピッチ, 音量, 音色)には, ランダムな揺らぎと系統的な変化が含まれている.本報告では音量により系統的に変化する音色の成分を明らかにすることを狙い, RWC研究用音楽データベース中の歌唱音声と新たに録音した男性歌手による歌唱音声素材の分析を行った.新たな録音では, RWC研究用音楽データベースに収録されていない連続的な音量変化の影響を調べるため, 一定音量の歌唱に加え, クレッシェンドとデクレッシェンド歌唱を収録した.これらの素材は, STRAIGHTにより分析された後, 1/3オクターブ毎のレベルに変換され主成分分析により直交する成分に分解された.音量を独立変数, 主成分得点を従属変数とする回帰分析の結果は, 第一主成分と音量との高い相関を示した.この結果に基づき, 本報告では, 第一主成分に対応する固有ベクトルを用いた音色制御法を提案した.予備実験の結果は, 合成歌唱によるクレッシェンドおよびデクレッシェンドの自然性が, 提案した方法を用いることにより改善されることを示した.
著者
石原 一志 坪田 康 奥乃 博
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.154, pp.19-24, 2003-06-19
被引用文献数
4

環境音を擬音語に変換するうえでの問題として,擬音語表現が聴者により異なるという聴者依存性の問題が挙げられる.本研究は擬音語への変換処理を聴者に依存する処理と依存しない処理に分けることでこの問題を回避し,3段階の処理により環境音を擬音語に変換する手法を提案する.(1)時間軸上のパワー包絡から環境音を音節単位で切り分け,(2)音長・減衰速度から音節構造を同定し,(3)音素グループを利用した音素認識により音節構造を擬音語に変換する.認識実験によりこれらの手法の妥当性を確認した.セグメンテーションでは83.7 %/ 99.1‰長音の認識では84.6 %/ 100.0 %の適合率/再現率を得た.
著者
津崎 実
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.247, pp.19-24, 2002-07-18

このチュートリアルではBregmanの研究とその発想を軸として聴覚による情景分析について概説をします。聴覚情景分析には音源定位以外の側面があること,さらにBregmanの研究の中では音源定位の話題が中心的な位置を占めないことの背景について説明し,いわゆる音源分離と音脈分凝の間の相違点について述べます。次に音環境に備わる4つの規則性と,それぞれに基づいた聴覚的情景分析の特徴について概説し,音声信号を扱う上で重要な要因となるトップダウンな情報処理が音脈分凝の研究の枠組みの中でどのように扱われているかについて説明します。
著者
松崎 博季 元木 邦俊
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.105, no.252, pp.7-12, 2005-08-18
被引用文献数
2

口腔と鼻腔が結合した日本語母音/a/発声のMRIデータから作成した鼻腔付き3次元声道形状モデルとこのモデルから鼻腔を取り去った鼻腔無しモデルの音響特性を有限要素法を用いて解析した.有限要素法のシミュレーション結果より伝達特性と複素音響インテンシティを計算した.実験結果より, 3kHz以下の周波数領域で鼻腔が結合することでピークや谷が生じることが示された.3kHzから5kHz間では両モデルの伝達特性はほぼ一致したが, 5kHz以上では異なっていた.第1, 2ピーク周波数において, 鼻腔付きモデルの複素音響インテンシティのベクトル分布は鼻腔無しモデルのものとは大きく異なる分布であった.鼻腔付きモデルの伝達特性に見られた近接した谷とピークの対の複素音響インテンシティのベクトル分布は僅かな周波数差にもかかわらず異なるものとなった.
著者
櫻井 光康 有木 康雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.364, pp.37-44, 1996-11-15
被引用文献数
29

オン・デマンドに基づくニュース・システム(ODN)を検討している。このシステムでは、希望する情報だけを取り出すことのできるニュースデータベースを構築しておく必要がある。そのためには、ニュースに対する索引付けや内容による分類を、人手ではなく自動化して行なう必要がある。ニュースは、内容を伝える音声、内容をまとめる文字、状況を伝える映像といったメディアで構成されているので、ニュース音声から索引付けや分類のためのキーワードを抽出する処理が必要不可欠となる。この点から今回、ニュース音声の記事分類と索引付けを行なった。記事分類では、単語スポッティングによりキャスターの音声からキーワード列とその存在確率を取り出す。キーワード毎に10分野の分類に対する寄与率を求めておき、この寄与率とキーワードの存在確率をもとに、確率的にニュース記事を分類する。本報告では、単語スポッティングの比較、キーワードの存在確率と寄与率の計算方法、索引付けの方法について述べる。
著者
鎌田 圭 朝川 智 峯松 信明 牧野 武彦 広瀬 啓吉
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.165, pp.73-78, 2007-07-19
被引用文献数
1

音声コミュニケーションは,音声の生成,収録,伝送,再生,聴取の何れの過程においても非言語的特徴が不可避的に混入するが,これを表現する次元をおよそ保有しない音響的普遍構造が提案されている.この構造的表象を用いて,発音矯正の必要度を学習者別に推定可能であることが実験的に示されている.本稿では,この推定方法が教育的に妥当であるかを,英語音声学を専門とする音声学者による学習者発音の母音図表記を通して検討する.また,この推定方法について,改善可能な点を示し,より妥当な推定方法を検討する.
著者
坂野 秀樹 森勢 将雅 高橋 徹 西村 竜一 入野 俊夫 河原 英紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.551, pp.157-162, 2008-03-13
被引用文献数
2

実時間動作するSTRAIGHT,リアルタイムSTRAIGHTの改良を行ったので,その詳細について報告する.高品質音声分析変換合成法STRAIGHTは極めて高品質であり,合成システムや聴覚実,験用のツールとして広く利用されるようになってきている.STRAIGHTは,MATLABによって実装されており,オフラインでの処理にはこれが広く用いられているが,実時間で動作するものではない.そこで,我々は,実時間で動作するリアルタイムSTRAIGHTをC言語による実装で構築してきた.今回は,まず,C言語によるSTRAIGHTの実装であるC言語版を,MATLAB版STRAIGHTの最新版と同等のものに更新した.そして,このC言語版の関数の一部を利用し,リアルタイムSTRAIGHTのスペクトル抽出部分を改良した.改良したリアルタイムSTRAIGHTを用いて主観評価実験を行った所,MOS値が3.4となり,これまでのリアルタイムSTRAIGHTに比べ0.7程度改善したことが分かった.また,C言語版STRAIGHTにおいては,バージョンによるAPIの違いが大きいという問題があった.今回,このような問題を解決したC言語版STRAIGHTのAPIを策定し,STRAIGHTライブラリとして実装した.
著者
熊谷 有香 吉田 奏子 三輪 譲二
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.611, pp.23-30, 1999-02-19
被引用文献数
3

本論文では、日本語音声教育のための日本語アクセント型判定法を提案する。アクセント型の判定では、相対アクセント位置および対数基本周波数の傾きの2つの特徴を用いる。アナウンサーの音声について、97%の割合でアクセント型を正しく判定した。よって本判定アルゴリズムは有効であるといえる。また、留学生のアクセントの正答率は69%であったが、間違った発音に対しては異なるアクセント型に判定された。よって日本語アクセント発音学習に役立てることができるといえる。
著者
佐々木 啓友 吉田 利信
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.603, pp.9-15, 2002-01-17

名詞2語からなる複合名詞がどのような場合にアクセント合成をするかを、新聞記事読み上げ音声コーパスを用いて解析した。複合名詞を構成する単語間の意味的結合関係を、係り受け解析から推定する方法、単語間の類似度から推定する方法、コーパスからの共起情報によって推定する方法を検討した。
著者
三宅 純平 竹内 翔大 川波 弘道 猿渡 洋 鹿野 清宏
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.422, pp.1-6, 2009-01-22
被引用文献数
2

本論文では,ユーザの手動登録に依存しない流行語・新語などに対する自動読み付与の手法を提案する.音声認識の大きな課題として,未知語処理が挙げられる.特に,流行語・新語は正しい読みが得られず,未知語として扱われることが多い.近年,流行語などの読み訂正処理として,「はてな」のようなキーワードと読みがペアで登録されている集合知サイトを利用した読み付与による音声認識辞書の修正が提案されている.しかしながら,集合知サイトに基づく読み付与は,匿名ユーザの手動による登録に強く依存しているため,迅速な読みの登録やその読みの正しさが保証されないという問題がある.そこで,括弧表現に基づくWebテキストマイニングによる読みの自動抽出及び,その読みの信頼度計算を行なうことで,ユーザによる登録に非依存な自動読み付与の手法の提案を行なう.評価実験では,従来手法である「はてな」を用いた読み付与と提案手法との読み付与との性能比較を行い,提案手法は従来手法と同等またはそれ以上の性能を得ることができた.特に一般性が著しく改善された.
著者
山崎 志織 堀内 靖雄 西田 昌史 黒岩 眞吾 市川 熹
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.435, pp.31-36, 2008-01-18

人間の手話動作と同程度の速度でも十分に読み取り可能な手話文CG合成システムを実現するために,モーションキャプチャにより収録した単語データを用い,わたりを自動補間する手話文CG合成システムの構築を行った.わたりに対しては時間長を移動距離から算出する手法を用い,速度を力学的モデルである躍度最小モデルによって算出した.構築したシステムによるアニメーションに関して,市販されている手話文CG合成ソフトとの比較評価を行った結果を報告する.
著者
松山 洋一 藤江 真也 齋藤 彰宏 XU Yushi 小林 哲則
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.110, no.220, pp.7-12, 2010-10-01
参考文献数
7

通所介護施設において,人同士の会話に介在させ,コミュニケーションを活性化するロボットについて報告する.本研究では,具体的なタスクとして高齢者通所施設で行われている難読ゲームを取り上げる.難読ゲームは,司会者の存在する複数人対話の一形態だと考えることができる.ここでロボットは,複数人会話における制約を満たしながら,会話を活性化させるための行動選択を行う必要がある.本論文では,既に人同士で行われているコミュニケーションを妨害せずに活性化を実現するため,会話における参加者の役割や,参加者間が共有する話題を推定しながら,様々な場面において適した行動を取るフレームワークを提案する.
著者
鈴木 誠史
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.102, no.291, pp.25-30, 2002-08-22
参考文献数
29

筆者は、1955年に郵政省電波研究所(現独立行政法人通信総合研究所)に入所して、情報通信、音声情報処理の研究を始めた。これらの分野の黎明期であったため、限られた情報源から、広い関連分野を学びながらの実験的研究を進めた。音声研究を主としたが、その方向性は手探り状態だった。中田和男氏がMIT留学から帰国後、ホルマント合成方式の合成器を制作し、母音.半母音・子音の合成音による言語音知覚の実験を行った。引き続き、母音、数字語の認識装置を試作した。ハードウェアによる限界を知り、1960年頃からは、計算機処理による分析、認識を開始した。これらの研究は、研究法が定式化していない時代としては、正鵠を得ていたと思う。1965年頃には連続音声認識、神経回路による分析などを手がけた。FFTを導入するとともに基礎的研究を指向した。音声、通信、信号処理の境界領域のプロジェクト的研究も行った。ヘリウム音声の性質の解明.了解性改善、騒音や雑音で妨害された音声の品質向上などがあげられる。研究テーマが早すきたり、技術が追いつかなかったことも多い。ほとんどの研究が初めてチャレンジするもので、研究・開発に際しての考え方等は、今の研究者の参考になるであろう。
著者
伊藤 太介 武田 一哉 板倉 文忠
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.325, pp.59-64, 2001-09-21
参考文献数
10
被引用文献数
1

本報告では, ささやき声の音響特性と音声認識手法について述べる.データベースとして100名以上の話者が発生した6, 000文以上のささやき声, 通常発生, 顔画像を収録した.ささやき声と通常発声の比較では, 1)ケプストラム距離が有声音で4dB, 無声音で2dBであること, 2)ささやき声のスペクトルの傾きが通常発生に比べ緩やかであること, 3)1.5kHz以下のフォルマント周波数が通常発声に比べ高くなっていることが得られた.収録したささやき声から音響モデル(HMM)を学習し認識を行ったところ, 64%の単語正解精度が得られ, MLLRによる話者適応を用いた認識では, 単語正解精度が76%まで改善された.
著者
山下 泰樹 松本 弘
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.270, pp.15-22, 2001-08-23
参考文献数
12

声質を表す8対の評価語による音声の主観評価値と, それら音声の各種音響パラメータとの間の関係を重回帰分析等を通して検討した.音声データは男女各50名中から選定した男声20名女声19名で, 被験者は大学生22名である.検討の結果, (1)主観評価の結果から, 評価語はほぼ2グループに分かれること, (2)"張り"を含むグループは, 中域の周波数パワーが大きいこと, (3)"太い"を含むグループではF0が主要な要因であること, (4)動的個人生を表す"落着き"は, モーラ当りのF0の偏差と高い相関があること, (5)動的個人生を表す"歯切れ"は, 母音の広がりやホルマントの遷移の度合いに違いが見られること, が分かった.
著者
北岡 教英 新宮 将久 中川 聖一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.103, no.94, pp.43-48, 2003-05-30
参考文献数
9
被引用文献数
1

人間の音響的知覚能力と,局所的なコンテキストを教示して音声を聞かせることで音響モデルとN-gram言語モデルによる音声認識をシミュレーションし,実際の音声認識システムと比較して各モデルの能力について検討を行った.人間の知覚実験ではコンテキストが与えられない場合に短い単語の知覚が難しいが,前2単語程度のコンテキストで短い単語の聴取は改善される.これは,助詞などが多い短い単語のパープレキシティが,言語モデルを用いることで小さくなることに対応する.また,コンテキスト情報のみからの単語予測能力もパープレキシティと強い相関がある.一方,前後2単語のコンテキストを与えると予測能力はさらに向上するが,必ずしも聴取能力の向上につながらない.同様の認識を音声認識システムでも行った.ユニグラム言語モデルと音響モデルによる認識は,人間のコンテキストなしの聴取に遠く及ばないが,トライグラム言語モデルの予測能力は人間と同等以上である.一方で人間でさらに予測能力が向上するコンテキストを与えても知覚能力は向上しないことから単語予測能力の高い言語モデルが認識の向上につながることは考えにくい.すなわち,講演音声などの自由発話認識に対しては,トライグラムによる言語のモデル化は十分でありかつこれ以上の改善による認識率向上は難しい一方で,音響モデルはまだ大きく改善すべきであると考えられる.
著者
野村 俊之 岩垂 正宏 田中 直也
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.98, no.424, pp.19-26, 1998-11-20
参考文献数
17
被引用文献数
8

本稿では、1999年2月に規格化予定のMPEG-4/CELPに関して、その概略と特徴、符号化アルゴリズムについて解説する。MPEG-4/CELPはMPEG-4オーディオ規格を構成する符号化方式の一部であり、音声信号向けの汎用符号化方式として採用されている。MPEG-4/CELPは、他の規格に比べ、ビットレート制御機能と階層符号化機能を有することを最大の特徴とする。ビットレート制御機能によりMPEG-4/CELPは、4〜24kbit/sのビットレートで高品質な符号化品質を達成する。階層符号化機能は、多地点テレビ会議、無線通信、インターネット通信・放送などにおいて高品質な通話を可能とする。
著者
加藤 弓子 廣瀬 良文 釜井 孝浩
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.107, no.282, pp.13-18, 2007-10-18
参考文献数
12
被引用文献数
2

感情音声に特徴的な声質のうち,「激怒」や「明るく元気」といった力の入った発話スタイル中に局所的に見られる「荒れた力み声」(pressed harsh voice)に着目し,その出現位置について音韻,基本周波数,アクセント句内の位置等の言語情報との関係について検討した.その結果,当該モーラの子音および母音,アクセント句内のモーラ位置,アクセント位置,フレーズ内のモーラ位置が「荒れた力み声」の発生頻度に関与する可能性が示された.さらに,数量化II類を用いて音韻と言語情報より発話中の「荒れた力み声」の発生位置を予測し,音声合成時に特徴的声質を利用して感情表現を制御する可能性を検討した.
著者
中井 孝芳
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.319, pp.21-28, 1996-10-18
参考文献数
9
被引用文献数
1

深度300m相当のヘリウム空気と通常空気で発声したときの声門体積速度微分波形をLiljencrantsモデルによりシミュレーシヨンした. また, 実際の音声を用いて逆フィルタリングにより推定した. その結果, ヘリウム音声の声門体積微分波形は通常音声と異なることがわかった. それは, 声帯が開いているときはゆっくり変化し, 声帯が閉じたときに大きく変化する. 声帯が閉じるときに起こる変化は高密度気体であることによって起こされること, 実際の音声でも声帯が閉じているときに起こることを示した.
著者
北原 真冬 西川 賢哉 五十嵐 陽介 新谷 敬人 馬塚 れい子
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.108, no.338, pp.133-136, 2008-12-02
参考文献数
11

理研母子会話コーパス,およびその収録に付随して行った読み上げ課題のデータを用いて,対乳児発話(IDS)と対成人発話(ADS)のピッチについて分析した.アクセントのピッチ,最高ピッチ,ピッチレンジなどにおいて,IDSはADSを上回る.また,アクセントの相対的位置が後方にずれる「おそさがり」の現象がIDSにおいてより大きいことが観察された.