著者
吉井 和輝 Eric Nichols 中野 幹生 青野 雅樹
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-106, no.4, pp.1-8, 2015-05-18

単語ベクトルは,統計的自然言語処理で利用しやすい分散意味表現として近年盛んに用いられるようになってきた.しかしながら,今まで主に英語で評価されてきたため,英語以外の言語での有効性は不明である.本研究では,単語の類推 (word analogy) と文完成 (sentence completion) の二つの評価タスクを用い,著名なオープンソースツールである word2vec (gensim の再実装) と GloVe を用いて構築した日本語単語ベクトルの評価を行った.単語の類推タスクでは,英語データで公表されている結果に近い結果を得たが,文完成のタスクでは,精度が大幅に減少した.本稿では,両タスクのエラー解析で明らかになった英語の単語ベクトルと日本語の単語ベクトルの性能差や,日本語特有の問題について調査した結果について述べる.
著者
小池 誠
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.35, pp.1-8, 2018-06-09

マイクロ波聴覚効果とは矩形波のマイクロ波が聴覚を刺激する現象である.そこで,マイクロ波聴覚効果を応用したマイクロ波通信,即ち,テレパシー通信では,音声信号でパルス変調されたマイクロ波を搬送波として,受信者の頭部にビーム照射することにより,マイクロ波聴覚効果により頭部が音声信号を復調する.テレパシー通信では,ビーム幅が小さく,かつ,ビーム径が小さなマイクロ波ビームを形成することが求められる.そこで,マイクロ波のみを頭部に照射するのでなく,別途,レーザービームを頭部に照射して,大気中の気体分子をイオン化して,微量のプラズマをらせん状のビーム経路に生成する.すると,プラズマが導波管として作用して,マイクロ波がプラズマ導波管の内部をビームとなって直進し,特定の受信者のみが声を聴くことができる.
著者
大谷 大和 松永 悟之 平井 啓之
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.39, pp.1-6, 2019-06-15

本稿では深層学習を用いた波形接続型感情音声合成のための感情制御法について述べる.従来の波形接続型感情音声合成では,1) 素片単位での混合が困難であるため,中間的な感情表現が乏しい,2) 入力された感情強度に従い素片の感情の種類を切り替えるため,感情による声質の変化が不連続になるといった問題があった.これらの問題を解決するために,提案手法では深層ニューラルネットワーク (DNN) を用いて,平静音声のスペクトル特徴量と感情強度から感情音声と平静音声の差分スペクトルを予測し,これを平静の素片に畳み込むことで所望の感情強度の感情素片を生成する.また,入力感情強度に応した差分スペクトル特徴量を予測可能にするため,データ拡張により感情強度に対応した差分スペクトル特徴量を生成し,これらを学習に用いることで所望の制御則を DNN に埋め込む.実験的評価では,従来手法と比較して滑らかな感情制御ができていることを確認した.
著者
高橋 勇希 小口 純矢 高道 慎之介 矢野 昌平 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2020-SLP-132, no.22, pp.1-3, 2020-05-30

音響インパルス応答(IR)の測定には,Maximal Length Sequence や Time Stretched Pulse などの測定信号の利用が一般的である.通常,被測定系に人間が含まれるかどうかは考慮されないため,これらの測定信号が人間に与える聴覚印象が無視されている.他方,新たな生体認証として,人間の外耳道の音響インパルス応答が提案されており,個人に応じた音メディア提示などへの応用が期待されている.この被測定系は人間の聴覚器官を含むため,受聴者の心理的ストレスが小さい測定信号を利用すべきである.そこで本研究では,人間にとって心地よいとされる自然環境音での IR 測定手法,クラウドソーシングを利用した主観評価と周波数分析を用いた評価指標を提案する.実験的評価結果より,(1) 測定信号としての妥当さと聴覚的な心地良さを両立する自然環境音が存在すること,(2) 板倉斎藤擬距離に基づく測定信号選定は,雑音環境下の高精度IR測定にあまり寄与しないことを明らかにする.
著者
河原 英紀
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-125, no.18, pp.1-5, 2018-12-03

新しいスペクトル包絡計算法,新しい瞬時周波数および群遅延計算法,周波数領域 velvet noise による新しい混合音源に基づいて,20 年前に構想された音声分析変換合成法 STRAIGHT を再構築する.本報告では,背景とそれらの構成要素を紹介し,検討課題と今後の進め方について議論する.
著者
寺島 涼
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.55, pp.1-7, 2019-06-15

VOCODER 方式の音声分析合成システムは,ピッチ操作やスペクトル変形に対する柔軟性が高く,音声研究では広く用いられている.しかし,予め高度な解析処理を必要とするため,分析から合成までの全てを低遅延でリアルタイムに処理することが難しく,実際の楽曲制作やライブなどで実用的に広く利用されるまでには至っていない.制作現場での実用性を高めるためには,品質や分析精度の追及よりも,比較的高い品質で,かつ,頑健性が高く,容易に扱えるという観点が特に重要になると考えられる.筆者らは,VOCODER 方式の音声分析合成特有の高い柔軟性を保持しつつ,実用的な品質と頑健性を有し,分析から合成までをリアルタイム,かつ,低遅延で処理するというコンセプトを基に,音声分析合成エフェクター CHERRY PIE を開発した.本稿では,リアルタイム音声分析合成を実現するためのアルゴリズムの骨格,及び,考え方について述べる.
著者
越塚 毅 大村 英史 桂田 浩一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.39, pp.1-6, 2021-02-24

音声変換は,入力された音声に対して言語情報を保持しつつ,話者性などの非言語情報のみを変換する技術である.一般的に,音声から話者性を除去するEncoderと,別話者の情報を加えるDecoderから構成されるシステムが多い.本稿では,事前学習した vq-wav2vecをEncoderに用いたボコーダフリーのAny-to-Many音声変換モデルを提案する.提案モデルでは Encoder の事前学習に加えて,RNN_MS と同様の構造を持つDecoderも事前学習することによって,少量の学習データからの音声変換を実現している.このように Encoder および Decoderを事前学習することにより学習データ量を削減する方法は既に提案されているが,Any-to-Many音声変換を対象としている点,およびDecoderの事前学習を音声変換タスクによって行う点が異なる.音声変換の精度を評価したところ,良好な音声変換精度が得られることが確認できた.また,既に学習済みのターゲット話者に対する変換精度を損なうことなく新たなターゲット話者を追加できることが確認できた.
著者
林 恒太朗 古明地 秀治 三橋 匠 飯村 康司 鈴木 皓晴 菅野 秀宣 篠田 浩一 田中 聡久
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.37, pp.1-6, 2021-02-24

近年の信号処理・機械学習技術の進展によって,発声時や傾聴時の音声を頭蓋内脳波から推定したり再構成することが可能になりつつある.一方で,想像している発話の推定は,脳波と正解ラベルの同期を取るのが困難であることもあり,めぼしい成果が出ていないのが現状である.本稿では,想像音声と脳波が適切に同期していれば,発声や傾聴時脳波の場合と同様に,脳波から音声をデコーディングできるという仮説を立てた.そこで,短い文が映し出された画面を実験参加者に呈示し,文字の色を1文字ずつハイライトすることで,想像時のタイミングや想像速度を制御できる実験を設計した.その上で,音声想像,音声傾聴,発声の3種類タスクを課し,そのときの頭蓋内脳波を記録した.さらに,傾聴タスクでは呈示した音声,発声タスクでは実験参加者の発話を記録した.計測した頭蓋内脳波に対して,発声または傾聴時の音声のメルケプストラム係数をもちいたエンコーダ・デコーダモデルによって,想像音声を学習・推論した.想像時の頭蓋内脳波からデコーディングした文の文字誤り率は,最良で約17%を達成した.
著者
湯谷 承将 山本 雄也 中谷 秀洋 寺澤 洋子
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2023-SLP-147, no.8, pp.1-7, 2023-06-16

シンセサイザーは現代の音楽制作や演奏活動において,不可欠な存在である.一方で音色生成に用いられるパラメータは複雑かつ技術的な用語が多く,プレイヤーが望む音色を得るためには習熟が必要とされる.本研究では, ウェーブテーブル合成[2, 14, 32]と呼ばれる音響合成方式において,意味的な表現を用いた,オーディオ・エフェクト/波形生成手法を提案する.これは,ユーザーが使用したいウェーブテーブルを選択し,所望の音色を意味的なラベルによって指定する事で,その特性を付与した一周期の波形を生成する事で実現される.提案手法では,Conditional Variational Autoencoder (CVAE)[18] を利用して, ウェーブテーブルの条件付け生成を行う. 条件付けには,音響特徴に基づいて算出した明るさ (bright),暖かさ (warm),リッチさ (rich)という 3 つの意味的ラベルを用いる.さらに,ウェーブテーブルの特徴を捉えるために,畳み込みとアップサンプリングを用いた CVAE モデルを設計する.また,生成時の処理を時間領域でのみ行うことで処理時間を削減し,リアルタイム性を確保する.実験結果から,提案手法は意味的ラベルを入力として用いてウェーブテーブルの音色をリアルタイムに制御できる事を定性的・定量的に示す.本研究は,データに基づいた意味的なウェーブテーブル制御の実現による直感的な音色探索を目指す.
著者
松永 裕太 佐伯 高明 高道 慎之介 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-140, no.31, pp.1-6, 2022-02-22

本論文では,個人性を再現する自発的な音声合成の実現に向けて,言語学的知識に基づいた包括的な実験的調査を行う.近年発展している音声クローニングは流暢な朗読発話に限定され,より人間らしい自発的な音声合成のための新たな音声クローニングの手法が求められている.そこで本論文は,声色の個人性のみならず非流暢性の個人性を再現可能な自発音声合成に取り組む.具体的には,主要な非流暢性であり,心理学や言語学の研究により発話生成やコミュニケーションにおいて重要な役割を果たすことが知られている,フィラーを扱う.本論文では,話者依存と話者非依存のフィラー予測手法を比較評価するため,多話者コーパスで学習した話者非依存のフィラー予測モデルを用いた音声合成手法を提案する.実験的評価により,フィラーの位置と種類の関連,自然性と個人性のトレードオフを明らかにし,人間らしい音声合成の実現への方向性を示す.
著者
小池 誠
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-128, no.11, pp.1-3, 2019-07-12

マイクロ波聴覚効果を応用することにより,受信者の頭部に直接,音声メッセージを伝える無線通信が実現するとされている.本稿では,搬送波の周波数そのものがマイクロ波聴覚効果を発現するのでなく,搬送波として作用する2つの周波数の差分がマイクロ波聴覚効果を発現させる.具体的には,2つの周波数を搬送波とする1本のミリ波ビームを受信者の頭部に照射して,マイクロ波聴覚効果により頭部が音声を復調する.搬送波の予想及び検出が困難となり,検出を回避することができる.
著者
中鹿 亘 滝口 哲也
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.2, pp.1-6, 2015-11-25

本研究では,音響特徴量・音韻特徴量・話者特徴量の3つを変数とする Three-Way Restricted Boltzmann Machine(3WRBM) を用いて音声モデリングを試みろ.3WRBM はそれぞれの変数のユーナリーポテンシャル,2 変数間のペアワイズポテンシャル,そして 3 変数間の Three-way ポテンシャルを総和したエネルギーに基づく確率密度関数である.本研究では,音響・音韻・話者特徴量の Three-way ポテンシャルを話者正規化学習・話者適応の観点から適切に設計する.一度モデルの学習が終われば 3 変数間の関係性が捉えられ,各特徴量の相互条件付確率を簡単に計算することができる.3WRBM による音声モデリングの性能を評価するために,本稿では声質変換実験と話者認識実験の結果を報告する.話者認識実験における話者特徴量は与えられた音響特徴量から尤度最大下基準により推定することで求めることができ,声質変換は,推定された音韻'情報と,切り替えた話者情報から音響特徴量を推定することで実現される.
著者
内田 照久
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.32, pp.1-6, 2019-06-15

声道長の縮小や拡大を模して,スペクトル包絡の周波数軸を伸長圧縮した声質変換音声では,基本周波数 (fo) の高低関係と声の高さの印象評価が逆転することがある.このピッチ感の錯覚が起こる条件の精査をするため,標準抑揚,平坦抑揚,逆相抑揚,疑似歌声,疑似ささやき声による評価実験を行った.
著者
平井 龍之介 齋藤 佑樹 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2023-SLP-146, no.11, pp.1-8, 2023-02-21

本稿では,連合学習を用いたユーザ参加型の多対多声質変換モデル学習法を提案する.従来の多対多声質変換技術は,多数話者の音声を含むデータセットを用いて声質変換モデルを学習する.しかし,学習されたモデルが多種多様なユーザによる入力音声に対して高品質な声質変換を実現する保証はない.提案手法では,高品質な多対多声質変換を実現する StarGANv2-VC モデルを研究開発者とユーザが協同的に学習し,ユーザが所有する音声データのプライバシーを保護しながら,より多様な話者の音声を変換可能な深層学習モデルを構築する.実験的評価の結果より,提案手法が従来の非分散型学習法と同程度の話者類似性を達成しうることを示す.
著者
高木 信二 倉田 岳人 郡山 知樹 塩田 さやか 鈴木 雅之 玉森 聡 俵 直弘 中鹿 亘 福田 隆 増村 亮 森勢 将雅 山岸 順一 山本 克彦
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-120, no.14, pp.1-9, 2018-02-13

2017 年 8 月 20 日から 8 月 24 日にかけ,ストックホルム ・ スウェーデンで Interspeech 2017 が開催された.Interspeech は音声言語情報処理の分野におけるトップカンファレンスと位置付けられており,今後の本分野の動向に大きく影響を与えている.本稿では,本会議における研究動向,注目すべき発表について報告する.
著者
滝沢 力 平井 重行
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-142, no.55, pp.1-6, 2022-06-10

アニメや映画,ゲームなどの制作現場では,サウンドエンジニア・クリエイターが,経験や知識・技能により効果音を選定・収集・生成・編集している.最近は,プロ以外の人による作品制作は盛んに行われるが,効果音の選定や編集による表現は素人には容易ではない.ただ,オノマトペ(擬音語)として音声で音のニュアンスも含めた効果音を表現することはある程度可能である.そこで,本研究では,オノマトペ音声を用いた効果音合成手法の確立を目指す.特に,様々な種類やニュアンスの表現が含まれる爆発音に焦点を当て,その音響合成手法について取り組む.ここでは,映画やアニメーション等で利用される爆発音の音響データ多数と,それらを口頭でオノマトペとして発話した音声データ多数を用意した.そして,系列変換モデルである Transformer でメルスペクトログラム画像を学習し,爆発音合成(音声から効果音への変換)を試みた.本稿では,Transformer での学習およびメルスペクトログラムからの音響合成モデルの学習について述べ,現状で得られている生成結果について報告する.
著者
倉田 将希 高道 慎之介 佐伯 高明 荒川 陸 齋藤 佑樹 樋口 啓太 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.31, pp.1-6, 2021-02-24

本稿では,音声変換ユーザに目標話者のキャラクタ性を獲得して発話させるためのシステムを提案する.深層学習に基づくリアルタイム音声変換は,人間の発声器官の物理制約を超えて,ユーザの音声から所望のキャタクタ性を持つ音声への高精度な変換を可能にしつつある.しかしながら,音声のパラ言語情報(抑揚・強勢など)の変換は未だ困難であり,ユーザの音声のパラ言語情報が変換音声に直接的に反映されてしまう.また,通常の発話において,人間は自己聴取音の聴取との相互作用により自らの言語情報・パラ言語情報を制御するが,リアルタイム音声変換を用いた発話において,そのような相互作用をもたらす機構は存在しない.そこで本稿では,変換音声をユーザにリアルタイムにフィードバックする自己聴取音制御システムにより,変換音声に所望のキャラクタ性を付与するようユーザを発話変容させるシステムを提案する.実験的評価では,一人称視点(音声変換ユーザ視点)と三人称視点においてシステムおよび変換音声を評価し,(1) 演技経験の少ないユーザに対してシステムの有用性が高いこと,(2) F0 を目標キャラクタに近づけるだけで十分な発話変容効果がみられることを示す.
著者
Xin Wang Shinji Takaki Junichi Yamagishi
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-115, no.2, pp.1-6, 2017-02-10

Neural-network-based mixture density networks are important tools for acoustic modeling in statistical parametric speech synthesis. Recently we found that incorporating an autoregressive model in a recurrent mixture density network, which is referred to as AR-RMDN, enabled the network to generate quite smooth acoustic data trajectories without using the delta and delta-delta coefficients. More interestingly, the new model generated trajectories with a dynamic range similar to that of the natural data, thus alleviating over-smoothing effect. In this work, after explaining the AR-RMDN from the perspective of signal and filter, we compare one AR-RMDN with a modulation-spectrum-based post-filtering method that also eases the over-smoothing effect. It is demonstrated that the AR-RMDN also alters the modulation spectrum of the generated data trajectories but in a different way from the post-filtering method. The AR-RMDN also generates synthetic speech with better perceived quality. Based on the signal and filter interpretation, we further extend the AR-RMDN so that the inverse AR filter can acquire complex poles and stay stable.
著者
伊藤 彰則
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-112, no.10, pp.1-6, 2016-07-21

音声認識の特徴量抽出では,まず入力音声に時間窓をかけて局所的な信号を切り出し,音声信号の局所的な周波数情報を取り出す.この時間窓の位置を少しずつずらしながら分析を行うことで,音声の持つ周波数成分の時間変化を捉えることができる.このとき時間窓をずらす時間間隔がフレームシフトであり,典型的には 5ms~10ms に設定される.本稿では,このフレームシフトを 2 つの点から再考する.一つ目の視点は 「フレームシフトは 10ms で十分なのか?」 という点である.フレームに基づく処理は,音声信号が短い時間で大きく変化しないことを前提としているが,破裂子音などではこの前提がそもそも成立していない.そこで,10ms ごとのフレームの先頭位置のずれによって,抽出される特徴量が大きく変化することを実験的に示す.また,偶然によるフレーム位置の変動に起因する特徴量変動に対応するため,フレーム位置をずらした学習サンプルを学習に用いる方法を提案する.二つ目の視点は,「フレーム位置のずれが学習によって吸収できるのであれば,フレームシフトはもっと長くてもよいのではないか?」 という点である.フレームシフトを実験的に 60ms 程度まで長くして実験を行ったところ,フレームシフト 40ms ではフレームシフト 10ms を越える認識性能が得られ,50ms でも 10ms と同程度の認識性能が得られた.これらの条件では 1 状態 HMM (すなわち GMM) が使われており,認識のための計算量の大幅な削減が期待できる.
著者
本間 幸徳 貞光 九月 西田 京介 浅野 久子 松尾 義博
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-116, no.26, pp.1-6, 2017-05-08

本稿では,ある文書におけるユーザの検索要求に対し,一つ以上の文を回答として提示する部分文書検索手法を提案する.検索要求によっては提示すべき文が文書中に散在する場合があるため,提案手法では,文間の関係性に基づいて推定した文書構造を用いることで,文書に散在する文の集合を部分文書として抽出する.また抽出された部分文書について,分散表現を利用した意昧ベクトルを作成し,検索スコアの算出に用いることで検索精度の向上を図る.評価実験により,文書構造に基づいて部分文書を抽出し,対応する意昧ベクトルを検索に用いることで,ユーザの検索要求に適した検索結果が得られることを示す.