著者
吉井 和輝 Eric Nichols 中野 幹生 青野 雅樹
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-106, no.4, pp.1-8, 2015-05-18

単語ベクトルは,統計的自然言語処理で利用しやすい分散意味表現として近年盛んに用いられるようになってきた.しかしながら,今まで主に英語で評価されてきたため,英語以外の言語での有効性は不明である.本研究では,単語の類推 (word analogy) と文完成 (sentence completion) の二つの評価タスクを用い,著名なオープンソースツールである word2vec (gensim の再実装) と GloVe を用いて構築した日本語単語ベクトルの評価を行った.単語の類推タスクでは,英語データで公表されている結果に近い結果を得たが,文完成のタスクでは,精度が大幅に減少した.本稿では,両タスクのエラー解析で明らかになった英語の単語ベクトルと日本語の単語ベクトルの性能差や,日本語特有の問題について調査した結果について述べる.
著者
小池 誠
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.35, pp.1-8, 2018-06-09

マイクロ波聴覚効果とは矩形波のマイクロ波が聴覚を刺激する現象である.そこで,マイクロ波聴覚効果を応用したマイクロ波通信,即ち,テレパシー通信では,音声信号でパルス変調されたマイクロ波を搬送波として,受信者の頭部にビーム照射することにより,マイクロ波聴覚効果により頭部が音声信号を復調する.テレパシー通信では,ビーム幅が小さく,かつ,ビーム径が小さなマイクロ波ビームを形成することが求められる.そこで,マイクロ波のみを頭部に照射するのでなく,別途,レーザービームを頭部に照射して,大気中の気体分子をイオン化して,微量のプラズマをらせん状のビーム経路に生成する.すると,プラズマが導波管として作用して,マイクロ波がプラズマ導波管の内部をビームとなって直進し,特定の受信者のみが声を聴くことができる.
著者
加藤 圭造 伊藤 彰則
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.14, pp.1-6, 2012-01-27

本研究ではデスメタル,メタルコアなどエクストリームメタルと言われるジャンルで頻繁に用いられる,グロウル及びスクリーム歌唱について音響的特徴の分析を行った.先行研究で特殊な発声の音響的な特徴として示されたサブハーモニクスの存在や macro pulse 構造の調査,病的音声の分析になどに使われる jitter,shimmer,HNR の値について測定を行った.
著者
大谷 大和 松永 悟之 平井 啓之
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.39, pp.1-6, 2019-06-15

本稿では深層学習を用いた波形接続型感情音声合成のための感情制御法について述べる.従来の波形接続型感情音声合成では,1) 素片単位での混合が困難であるため,中間的な感情表現が乏しい,2) 入力された感情強度に従い素片の感情の種類を切り替えるため,感情による声質の変化が不連続になるといった問題があった.これらの問題を解決するために,提案手法では深層ニューラルネットワーク (DNN) を用いて,平静音声のスペクトル特徴量と感情強度から感情音声と平静音声の差分スペクトルを予測し,これを平静の素片に畳み込むことで所望の感情強度の感情素片を生成する.また,入力感情強度に応した差分スペクトル特徴量を予測可能にするため,データ拡張により感情強度に対応した差分スペクトル特徴量を生成し,これらを学習に用いることで所望の制御則を DNN に埋め込む.実験的評価では,従来手法と比較して滑らかな感情制御ができていることを確認した.
著者
高橋 勇希 小口 純矢 高道 慎之介 矢野 昌平 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2020-SLP-132, no.22, pp.1-3, 2020-05-30

音響インパルス応答(IR)の測定には,Maximal Length Sequence や Time Stretched Pulse などの測定信号の利用が一般的である.通常,被測定系に人間が含まれるかどうかは考慮されないため,これらの測定信号が人間に与える聴覚印象が無視されている.他方,新たな生体認証として,人間の外耳道の音響インパルス応答が提案されており,個人に応じた音メディア提示などへの応用が期待されている.この被測定系は人間の聴覚器官を含むため,受聴者の心理的ストレスが小さい測定信号を利用すべきである.そこで本研究では,人間にとって心地よいとされる自然環境音での IR 測定手法,クラウドソーシングを利用した主観評価と周波数分析を用いた評価指標を提案する.実験的評価結果より,(1) 測定信号としての妥当さと聴覚的な心地良さを両立する自然環境音が存在すること,(2) 板倉斎藤擬距離に基づく測定信号選定は,雑音環境下の高精度IR測定にあまり寄与しないことを明らかにする.
著者
河原 英紀
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-125, no.18, pp.1-5, 2018-12-03

新しいスペクトル包絡計算法,新しい瞬時周波数および群遅延計算法,周波数領域 velvet noise による新しい混合音源に基づいて,20 年前に構想された音声分析変換合成法 STRAIGHT を再構築する.本報告では,背景とそれらの構成要素を紹介し,検討課題と今後の進め方について議論する.
著者
寺島 涼
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.55, pp.1-7, 2019-06-15

VOCODER 方式の音声分析合成システムは,ピッチ操作やスペクトル変形に対する柔軟性が高く,音声研究では広く用いられている.しかし,予め高度な解析処理を必要とするため,分析から合成までの全てを低遅延でリアルタイムに処理することが難しく,実際の楽曲制作やライブなどで実用的に広く利用されるまでには至っていない.制作現場での実用性を高めるためには,品質や分析精度の追及よりも,比較的高い品質で,かつ,頑健性が高く,容易に扱えるという観点が特に重要になると考えられる.筆者らは,VOCODER 方式の音声分析合成特有の高い柔軟性を保持しつつ,実用的な品質と頑健性を有し,分析から合成までをリアルタイム,かつ,低遅延で処理するというコンセプトを基に,音声分析合成エフェクター CHERRY PIE を開発した.本稿では,リアルタイム音声分析合成を実現するためのアルゴリズムの骨格,及び,考え方について述べる.
著者
越塚 毅 大村 英史 桂田 浩一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.39, pp.1-6, 2021-02-24

音声変換は,入力された音声に対して言語情報を保持しつつ,話者性などの非言語情報のみを変換する技術である.一般的に,音声から話者性を除去するEncoderと,別話者の情報を加えるDecoderから構成されるシステムが多い.本稿では,事前学習した vq-wav2vecをEncoderに用いたボコーダフリーのAny-to-Many音声変換モデルを提案する.提案モデルでは Encoder の事前学習に加えて,RNN_MS と同様の構造を持つDecoderも事前学習することによって,少量の学習データからの音声変換を実現している.このように Encoder および Decoderを事前学習することにより学習データ量を削減する方法は既に提案されているが,Any-to-Many音声変換を対象としている点,およびDecoderの事前学習を音声変換タスクによって行う点が異なる.音声変換の精度を評価したところ,良好な音声変換精度が得られることが確認できた.また,既に学習済みのターゲット話者に対する変換精度を損なうことなく新たなターゲット話者を追加できることが確認できた.
著者
林 恒太朗 古明地 秀治 三橋 匠 飯村 康司 鈴木 皓晴 菅野 秀宣 篠田 浩一 田中 聡久
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2021-SLP-136, no.37, pp.1-6, 2021-02-24

近年の信号処理・機械学習技術の進展によって,発声時や傾聴時の音声を頭蓋内脳波から推定したり再構成することが可能になりつつある.一方で,想像している発話の推定は,脳波と正解ラベルの同期を取るのが困難であることもあり,めぼしい成果が出ていないのが現状である.本稿では,想像音声と脳波が適切に同期していれば,発声や傾聴時脳波の場合と同様に,脳波から音声をデコーディングできるという仮説を立てた.そこで,短い文が映し出された画面を実験参加者に呈示し,文字の色を1文字ずつハイライトすることで,想像時のタイミングや想像速度を制御できる実験を設計した.その上で,音声想像,音声傾聴,発声の3種類タスクを課し,そのときの頭蓋内脳波を記録した.さらに,傾聴タスクでは呈示した音声,発声タスクでは実験参加者の発話を記録した.計測した頭蓋内脳波に対して,発声または傾聴時の音声のメルケプストラム係数をもちいたエンコーダ・デコーダモデルによって,想像音声を学習・推論した.想像時の頭蓋内脳波からデコーディングした文の文字誤り率は,最良で約17%を達成した.
著者
加藤 圭造 伊藤 彰則
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012, no.14, pp.1-6, 2012-01-27

本研究ではデスメタル,メタルコアなどエクストリームメタルと言われるジャンルで頻繁に用いられる,グロウル及びスクリーム歌唱について音響的特徴の分析を行った.先行研究で特殊な発声の音響的な特徴として示されたサブハーモニクスの存在や macro pulse 構造の調査,病的音声の分析になどに使われる jitter,shimmer,HNR の値について測定を行った.In this study, we analized acoustic feauture of growl and scream singing voices used in extream metal music, such as death metal, metal core, and so on. We observed sub-harmonics and macro pulse structures those are reported as accoustic features of rough voice. We also measured jitter, shimmer, and HNR values.
著者
藤田 洋子 竹内 翔大 川波 弘道 松井 知子 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.3, pp.1-6, 2010-02-05

実環境で,音声認識を用いた音声情報案内システムを稼動させる場合には,雑音などの音声以外の入力やユーザ同士の背景会話などが混入されてくることがある.これらの入力はシステムの誤作動・誤認識を引き起こし,システムの応答性能を低下させる原因となる.そのため,システムへの入力として適当な入力 (有効入力) と不適当な入力 (無効入力) の識別を行い,無効入力を棄却することにより,無効入力に対する応答処理を行わないことが重要となる.一般的に有効入力と無効入力を識別には音響的特徴が用いられる.しかし,入力音の音声認識結果から得られる言語的な情報を使うことにより,無意味な認識結果が出力される雑音の識別に加え,システムのタスクの言語的な特徴を反映させた有効入力,無効入力を識別することが可能になると考えられる.そこで本稿では,Bag-of-Words (BOW) を特徴量とした Support Vector Machine (SVM) による無効入力の識別を検討した.実環境音声認識システム 「たけまるくん」 の入力データを用いた実験では,GMM に基づく無効入力の識別と比べ,分類誤り率を 23.30% から 15.90% に削減することができた.また,BOW に GMM から得られる音響尤度,発話時間や SNR を組み合わせた手法についても検討した.その結果,分類誤り率を 13.60% まで削減することができた.On a real environment speech-oriented information guidance system, a valid and invalid input discrimination process is important as invalid inputs such as noise, laugh, cough and meaningless utterances lead to unpredictable system responses. Generally, acoustic features such as MFCC are used for discrimination. Comparing acoustic likelihoods of GMMs (Gaussian Mixture Models) from speech data and noise data is one of the typical methods. In addition to that, using linguistic features, such as speech recognition result, is considered to improve discrimination accuracy as it reflects the task-domain of invalid inputs and meaningless recognition results from noise inputs. In this report, the authors propose to introduce Bag-of-Words (BOW) as a feature to discriminate between valid and invalid inputs. Support Vector Machine (SVM) is also employed to realize robust classification. Experiments using real environment data from the guidance system "Takemaru-kun" were conducted. By applying BOW and SVM, the classification error rate (CER) is reduced to 15.90% , from 23.30% when using GMMs. In addition, experiments using features combining BOW with acoustic likelihoods from GMMs, SNR and duration were conducted, improving the CER to 13.6% .
著者
湯谷 承将 山本 雄也 中谷 秀洋 寺澤 洋子
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2023-SLP-147, no.8, pp.1-7, 2023-06-16

シンセサイザーは現代の音楽制作や演奏活動において,不可欠な存在である.一方で音色生成に用いられるパラメータは複雑かつ技術的な用語が多く,プレイヤーが望む音色を得るためには習熟が必要とされる.本研究では, ウェーブテーブル合成[2, 14, 32]と呼ばれる音響合成方式において,意味的な表現を用いた,オーディオ・エフェクト/波形生成手法を提案する.これは,ユーザーが使用したいウェーブテーブルを選択し,所望の音色を意味的なラベルによって指定する事で,その特性を付与した一周期の波形を生成する事で実現される.提案手法では,Conditional Variational Autoencoder (CVAE)[18] を利用して, ウェーブテーブルの条件付け生成を行う. 条件付けには,音響特徴に基づいて算出した明るさ (bright),暖かさ (warm),リッチさ (rich)という 3 つの意味的ラベルを用いる.さらに,ウェーブテーブルの特徴を捉えるために,畳み込みとアップサンプリングを用いた CVAE モデルを設計する.また,生成時の処理を時間領域でのみ行うことで処理時間を削減し,リアルタイム性を確保する.実験結果から,提案手法は意味的ラベルを入力として用いてウェーブテーブルの音色をリアルタイムに制御できる事を定性的・定量的に示す.本研究は,データに基づいた意味的なウェーブテーブル制御の実現による直感的な音色探索を目指す.
著者
rankingloid
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.5, pp.1-6, 2012-01-27

YouTube やニコニコ動画等の動画共有サイトには、サイトに投稿された動画をランキング形式で紹介するランキング動画が多数存在する。それらのランキング動画はサイトのユーザによって編集され、投稿されており、多大な労力が費やされている。本稿ではそのようなランキング動画を全自動で生成するためのシステムについて述べる。また、そのシステムを用いて、著者が 「日刊 VOCALOID ランキング」 を投稿した経験についても述べる。
著者
木原 裕二 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.19, pp.1-6, 2014-05-15

ソーシャルメディアのユーザの中には複数のソーシャルメディアのアカウントを関連付けずに使用しているユーザがいる.しかし,特徴的な表現や話題などから,それらの複数のアカウントが同じユーザにより作成されたものであると第三者に推測されてしまう場合がある.本研究では,まず,Twitter とブログの著者の同一性推定システムを構築することにより,どのような特徴がこれらのアカウントが同じユーザにより作成されたものと判断される要因となるのかを明らかにし,そこから得られた知見をもとにした関連付け防止システムの構築を行う.Some social media users do not link their accounts on other social media platforms. However, the user identity is sometimes revealed by others due to the characteristics of expressions and topics in the posts. In this paper, we first examine what kinds of characteristics can be a clue for user identification by constructing a system for identifying user accounts on Twitter and blogs, and then propose a system to prevent identification of user accounts on different social media platforms on the basis of the findings from the user identification system.
著者
峯松 信明 中村 新芽 橋本 浩弥 広瀬 啓吉
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2013, no.21, pp.1-6, 2013-12-12

日本語の韻律教育を支援すべく,自然言語処理技術,音声言語処理技術を用いたオンラインアクセント辞書 (Online Japanese Accent Dictionary, OJAD) [1] を構築,運用している。日本語は前後のコンテキストによって単語のアクセントが頻繁に変化する特徴を有するが,アクセント変形に十分対応した日本語教育史上初の教材として,世界中の教育現場で利用されるに至っている。またこれまで,約 4 時間に渡る OJAD 講習会を,国内 10 都市,海外 17 都市で開催しており,どの講習会も好評を博している。OJAD 開発を技術的観点から見ると,アクセント句境界推定,アクセント核位置推定,Fo パターン生成など,音声合成の裏方として機能していた技術を表舞台に出しているに過ぎない。これは音声合成技術の一部を,音声を合成する目的以外に応用している例として考えることができる。本稿では,音声合成技術の応用可能性を考える一つの例として OJAD 開発・運用を捉え,検討する。To support Japanese prosody instruction, the Online Japanese Accent Dictionary (OJAD) [1] has been developed by using NLP and SLP techniques and it is maintained by our laboratory. Japanese is a very unique language in that word accent often changes due to its context. The OJAD was introduced to the Japanese language education community as the first educational system that can handle context-based word accent changes very well and it is actively used by teachers and learners internationally. So far, 4-hour OJAD tutorials have been held at 10 domestic cities and 17 international cities and each tutorial was welcomed to Japanese teachers there. If we discuss development of the OJAD from a technical point of view, the OJAD uses several internal modules of Japanese speech synthesis, such as estimation of accent phrase boundaries and accent nucleus positions, and Fo pattern generation. It is interesting that the OJAD uses these techniques not for synthesizing speech. In this report, by regarding development of the OJAD as one example of using speech synthesis techniques not to synthesizing speech, we discuss new possibility of applying these techniques to new domains.
著者
松永 裕太 佐伯 高明 高道 慎之介 猿渡 洋
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2022-SLP-140, no.31, pp.1-6, 2022-02-22

本論文では,個人性を再現する自発的な音声合成の実現に向けて,言語学的知識に基づいた包括的な実験的調査を行う.近年発展している音声クローニングは流暢な朗読発話に限定され,より人間らしい自発的な音声合成のための新たな音声クローニングの手法が求められている.そこで本論文は,声色の個人性のみならず非流暢性の個人性を再現可能な自発音声合成に取り組む.具体的には,主要な非流暢性であり,心理学や言語学の研究により発話生成やコミュニケーションにおいて重要な役割を果たすことが知られている,フィラーを扱う.本論文では,話者依存と話者非依存のフィラー予測手法を比較評価するため,多話者コーパスで学習した話者非依存のフィラー予測モデルを用いた音声合成手法を提案する.実験的評価により,フィラーの位置と種類の関連,自然性と個人性のトレードオフを明らかにし,人間らしい音声合成の実現への方向性を示す.
著者
小池 誠
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-128, no.11, pp.1-3, 2019-07-12

マイクロ波聴覚効果を応用することにより,受信者の頭部に直接,音声メッセージを伝える無線通信が実現するとされている.本稿では,搬送波の周波数そのものがマイクロ波聴覚効果を発現するのでなく,搬送波として作用する2つの周波数の差分がマイクロ波聴覚効果を発現させる.具体的には,2つの周波数を搬送波とする1本のミリ波ビームを受信者の頭部に照射して,マイクロ波聴覚効果により頭部が音声を復調する.搬送波の予想及び検出が困難となり,検出を回避することができる.
著者
中鹿 亘 滝口 哲也
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.2, pp.1-6, 2015-11-25

本研究では,音響特徴量・音韻特徴量・話者特徴量の3つを変数とする Three-Way Restricted Boltzmann Machine(3WRBM) を用いて音声モデリングを試みろ.3WRBM はそれぞれの変数のユーナリーポテンシャル,2 変数間のペアワイズポテンシャル,そして 3 変数間の Three-way ポテンシャルを総和したエネルギーに基づく確率密度関数である.本研究では,音響・音韻・話者特徴量の Three-way ポテンシャルを話者正規化学習・話者適応の観点から適切に設計する.一度モデルの学習が終われば 3 変数間の関係性が捉えられ,各特徴量の相互条件付確率を簡単に計算することができる.3WRBM による音声モデリングの性能を評価するために,本稿では声質変換実験と話者認識実験の結果を報告する.話者認識実験における話者特徴量は与えられた音響特徴量から尤度最大下基準により推定することで求めることができ,声質変換は,推定された音韻'情報と,切り替えた話者情報から音響特徴量を推定することで実現される.
著者
藤沼祥成 横野光 PascualMartinez-gomez 相澤彰子
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014-SLP-101, no.3, pp.1-8, 2014-05-15

あるイベントの盛り上がりに対して,それに関するツイートにも変化が現れその変化に着目することで盛り上がりを検出することが可能であると考えられる.本研究ではこの盛り上がり時間帯中のツイートに用いられている表現の特性を解析することを試みる.はじめに各時間帯のツイート集合とツイートより構築した言語モデルの関係をクロスエントロピーで算出した.実験結果より複数のハッシュタグ間における一部の盛り上がり時間帯のツイートはツイートより構築した n-gram 言語モデルに従うことを示す.また,盛り上がっている時間帯とそうでない時間帯において,クロスエントロピーにおいて統計的に有意差があることを示した (p<0.02).また,n-gram 言語モデルでは捉えられない素性も検討するため,Support Vector Machine (SVM) と Random Forest により各ツイートを盛り上がり時間帯の二値分類を行い,盛り上がり時間帯の特徴として漢字数が少ないことが明らかになった.
著者
辰巳 直也 馬場 隆 森勢 将雅 片寄 晴弘
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.12, pp.1-6, 2012-01-27

Vocaloid 「初音ミク」 の発売以来,歌唱合成に対する注目が高まりつつある.Vocaloid では,メロディと歌詞を入力することにより,サンプリングされた人の声を元にした歌声を合成することができる.また,表情パラメタを調整することにより,様々な表情を付与することができる.しかし,より人間らしい表情豊かな歌声にするには,表情パラメタの調整を細かく設定することが必要なため,非常に煩雑で時間がかかる.本研究では,Vocaloid 歌唱をロック歌手風の歌い方に変換し,Vocaloid 歌唱における作り込みを支援する 「ロックボーカルレゾネータ」 の提案をする.