著者
吉井 和輝 Eric Nichols 中野 幹生 青野 雅樹
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-106, no.4, pp.1-8, 2015-05-18

単語ベクトルは,統計的自然言語処理で利用しやすい分散意味表現として近年盛んに用いられるようになってきた.しかしながら,今まで主に英語で評価されてきたため,英語以外の言語での有効性は不明である.本研究では,単語の類推 (word analogy) と文完成 (sentence completion) の二つの評価タスクを用い,著名なオープンソースツールである word2vec (gensim の再実装) と GloVe を用いて構築した日本語単語ベクトルの評価を行った.単語の類推タスクでは,英語データで公表されている結果に近い結果を得たが,文完成のタスクでは,精度が大幅に減少した.本稿では,両タスクのエラー解析で明らかになった英語の単語ベクトルと日本語の単語ベクトルの性能差や,日本語特有の問題について調査した結果について述べる.
著者
大谷 大和 松永 悟之 平井 啓之
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.39, pp.1-6, 2019-06-15

本稿では深層学習を用いた波形接続型感情音声合成のための感情制御法について述べる.従来の波形接続型感情音声合成では,1) 素片単位での混合が困難であるため,中間的な感情表現が乏しい,2) 入力された感情強度に従い素片の感情の種類を切り替えるため,感情による声質の変化が不連続になるといった問題があった.これらの問題を解決するために,提案手法では深層ニューラルネットワーク (DNN) を用いて,平静音声のスペクトル特徴量と感情強度から感情音声と平静音声の差分スペクトルを予測し,これを平静の素片に畳み込むことで所望の感情強度の感情素片を生成する.また,入力感情強度に応した差分スペクトル特徴量を予測可能にするため,データ拡張により感情強度に対応した差分スペクトル特徴量を生成し,これらを学習に用いることで所望の制御則を DNN に埋め込む.実験的評価では,従来手法と比較して滑らかな感情制御ができていることを確認した.
著者
河原 英紀
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-125, no.18, pp.1-5, 2018-12-03

新しいスペクトル包絡計算法,新しい瞬時周波数および群遅延計算法,周波数領域 velvet noise による新しい混合音源に基づいて,20 年前に構想された音声分析変換合成法 STRAIGHT を再構築する.本報告では,背景とそれらの構成要素を紹介し,検討課題と今後の進め方について議論する.
著者
寺島 涼
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-127, no.55, pp.1-7, 2019-06-15

VOCODER 方式の音声分析合成システムは,ピッチ操作やスペクトル変形に対する柔軟性が高く,音声研究では広く用いられている.しかし,予め高度な解析処理を必要とするため,分析から合成までの全てを低遅延でリアルタイムに処理することが難しく,実際の楽曲制作やライブなどで実用的に広く利用されるまでには至っていない.制作現場での実用性を高めるためには,品質や分析精度の追及よりも,比較的高い品質で,かつ,頑健性が高く,容易に扱えるという観点が特に重要になると考えられる.筆者らは,VOCODER 方式の音声分析合成特有の高い柔軟性を保持しつつ,実用的な品質と頑健性を有し,分析から合成までをリアルタイム,かつ,低遅延で処理するというコンセプトを基に,音声分析合成エフェクター CHERRY PIE を開発した.本稿では,リアルタイム音声分析合成を実現するためのアルゴリズムの骨格,及び,考え方について述べる.
著者
加藤 圭造 伊藤 彰則
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012, no.14, pp.1-6, 2012-01-27

本研究ではデスメタル,メタルコアなどエクストリームメタルと言われるジャンルで頻繁に用いられる,グロウル及びスクリーム歌唱について音響的特徴の分析を行った.先行研究で特殊な発声の音響的な特徴として示されたサブハーモニクスの存在や macro pulse 構造の調査,病的音声の分析になどに使われる jitter,shimmer,HNR の値について測定を行った.In this study, we analized acoustic feauture of growl and scream singing voices used in extream metal music, such as death metal, metal core, and so on. We observed sub-harmonics and macro pulse structures those are reported as accoustic features of rough voice. We also measured jitter, shimmer, and HNR values.
著者
藤田 洋子 竹内 翔大 川波 弘道 松井 知子 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.3, pp.1-6, 2010-02-05

実環境で,音声認識を用いた音声情報案内システムを稼動させる場合には,雑音などの音声以外の入力やユーザ同士の背景会話などが混入されてくることがある.これらの入力はシステムの誤作動・誤認識を引き起こし,システムの応答性能を低下させる原因となる.そのため,システムへの入力として適当な入力 (有効入力) と不適当な入力 (無効入力) の識別を行い,無効入力を棄却することにより,無効入力に対する応答処理を行わないことが重要となる.一般的に有効入力と無効入力を識別には音響的特徴が用いられる.しかし,入力音の音声認識結果から得られる言語的な情報を使うことにより,無意味な認識結果が出力される雑音の識別に加え,システムのタスクの言語的な特徴を反映させた有効入力,無効入力を識別することが可能になると考えられる.そこで本稿では,Bag-of-Words (BOW) を特徴量とした Support Vector Machine (SVM) による無効入力の識別を検討した.実環境音声認識システム 「たけまるくん」 の入力データを用いた実験では,GMM に基づく無効入力の識別と比べ,分類誤り率を 23.30% から 15.90% に削減することができた.また,BOW に GMM から得られる音響尤度,発話時間や SNR を組み合わせた手法についても検討した.その結果,分類誤り率を 13.60% まで削減することができた.On a real environment speech-oriented information guidance system, a valid and invalid input discrimination process is important as invalid inputs such as noise, laugh, cough and meaningless utterances lead to unpredictable system responses. Generally, acoustic features such as MFCC are used for discrimination. Comparing acoustic likelihoods of GMMs (Gaussian Mixture Models) from speech data and noise data is one of the typical methods. In addition to that, using linguistic features, such as speech recognition result, is considered to improve discrimination accuracy as it reflects the task-domain of invalid inputs and meaningless recognition results from noise inputs. In this report, the authors propose to introduce Bag-of-Words (BOW) as a feature to discriminate between valid and invalid inputs. Support Vector Machine (SVM) is also employed to realize robust classification. Experiments using real environment data from the guidance system "Takemaru-kun" were conducted. By applying BOW and SVM, the classification error rate (CER) is reduced to 15.90% , from 23.30% when using GMMs. In addition, experiments using features combining BOW with acoustic likelihoods from GMMs, SNR and duration were conducted, improving the CER to 13.6% .
著者
rankingloid
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.5, pp.1-6, 2012-01-27

YouTube やニコニコ動画等の動画共有サイトには、サイトに投稿された動画をランキング形式で紹介するランキング動画が多数存在する。それらのランキング動画はサイトのユーザによって編集され、投稿されており、多大な労力が費やされている。本稿ではそのようなランキング動画を全自動で生成するためのシステムについて述べる。また、そのシステムを用いて、著者が 「日刊 VOCALOID ランキング」 を投稿した経験についても述べる。
著者
木原 裕二 笹野 遼平 高村 大也 奥村 学
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.19, pp.1-6, 2014-05-15

ソーシャルメディアのユーザの中には複数のソーシャルメディアのアカウントを関連付けずに使用しているユーザがいる.しかし,特徴的な表現や話題などから,それらの複数のアカウントが同じユーザにより作成されたものであると第三者に推測されてしまう場合がある.本研究では,まず,Twitter とブログの著者の同一性推定システムを構築することにより,どのような特徴がこれらのアカウントが同じユーザにより作成されたものと判断される要因となるのかを明らかにし,そこから得られた知見をもとにした関連付け防止システムの構築を行う.Some social media users do not link their accounts on other social media platforms. However, the user identity is sometimes revealed by others due to the characteristics of expressions and topics in the posts. In this paper, we first examine what kinds of characteristics can be a clue for user identification by constructing a system for identifying user accounts on Twitter and blogs, and then propose a system to prevent identification of user accounts on different social media platforms on the basis of the findings from the user identification system.
著者
峯松 信明 中村 新芽 橋本 浩弥 広瀬 啓吉
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2013, no.21, pp.1-6, 2013-12-12

日本語の韻律教育を支援すべく,自然言語処理技術,音声言語処理技術を用いたオンラインアクセント辞書 (Online Japanese Accent Dictionary, OJAD) [1] を構築,運用している。日本語は前後のコンテキストによって単語のアクセントが頻繁に変化する特徴を有するが,アクセント変形に十分対応した日本語教育史上初の教材として,世界中の教育現場で利用されるに至っている。またこれまで,約 4 時間に渡る OJAD 講習会を,国内 10 都市,海外 17 都市で開催しており,どの講習会も好評を博している。OJAD 開発を技術的観点から見ると,アクセント句境界推定,アクセント核位置推定,Fo パターン生成など,音声合成の裏方として機能していた技術を表舞台に出しているに過ぎない。これは音声合成技術の一部を,音声を合成する目的以外に応用している例として考えることができる。本稿では,音声合成技術の応用可能性を考える一つの例として OJAD 開発・運用を捉え,検討する。To support Japanese prosody instruction, the Online Japanese Accent Dictionary (OJAD) [1] has been developed by using NLP and SLP techniques and it is maintained by our laboratory. Japanese is a very unique language in that word accent often changes due to its context. The OJAD was introduced to the Japanese language education community as the first educational system that can handle context-based word accent changes very well and it is actively used by teachers and learners internationally. So far, 4-hour OJAD tutorials have been held at 10 domestic cities and 17 international cities and each tutorial was welcomed to Japanese teachers there. If we discuss development of the OJAD from a technical point of view, the OJAD uses several internal modules of Japanese speech synthesis, such as estimation of accent phrase boundaries and accent nucleus positions, and Fo pattern generation. It is interesting that the OJAD uses these techniques not for synthesizing speech. In this report, by regarding development of the OJAD as one example of using speech synthesis techniques not to synthesizing speech, we discuss new possibility of applying these techniques to new domains.
著者
加藤 圭造 伊藤 彰則
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.14, pp.1-6, 2012-01-27

本研究ではデスメタル,メタルコアなどエクストリームメタルと言われるジャンルで頻繁に用いられる,グロウル及びスクリーム歌唱について音響的特徴の分析を行った.先行研究で特殊な発声の音響的な特徴として示されたサブハーモニクスの存在や macro pulse 構造の調査,病的音声の分析になどに使われる jitter,shimmer,HNR の値について測定を行った.
著者
中鹿 亘 滝口 哲也
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.2, pp.1-6, 2015-11-25

本研究では,音響特徴量・音韻特徴量・話者特徴量の3つを変数とする Three-Way Restricted Boltzmann Machine(3WRBM) を用いて音声モデリングを試みろ.3WRBM はそれぞれの変数のユーナリーポテンシャル,2 変数間のペアワイズポテンシャル,そして 3 変数間の Three-way ポテンシャルを総和したエネルギーに基づく確率密度関数である.本研究では,音響・音韻・話者特徴量の Three-way ポテンシャルを話者正規化学習・話者適応の観点から適切に設計する.一度モデルの学習が終われば 3 変数間の関係性が捉えられ,各特徴量の相互条件付確率を簡単に計算することができる.3WRBM による音声モデリングの性能を評価するために,本稿では声質変換実験と話者認識実験の結果を報告する.話者認識実験における話者特徴量は与えられた音響特徴量から尤度最大下基準により推定することで求めることができ,声質変換は,推定された音韻'情報と,切り替えた話者情報から音響特徴量を推定することで実現される.
著者
藤沼祥成 横野光 PascualMartinez-gomez 相澤彰子
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014-SLP-101, no.3, pp.1-8, 2014-05-15

あるイベントの盛り上がりに対して,それに関するツイートにも変化が現れその変化に着目することで盛り上がりを検出することが可能であると考えられる.本研究ではこの盛り上がり時間帯中のツイートに用いられている表現の特性を解析することを試みる.はじめに各時間帯のツイート集合とツイートより構築した言語モデルの関係をクロスエントロピーで算出した.実験結果より複数のハッシュタグ間における一部の盛り上がり時間帯のツイートはツイートより構築した n-gram 言語モデルに従うことを示す.また,盛り上がっている時間帯とそうでない時間帯において,クロスエントロピーにおいて統計的に有意差があることを示した (p<0.02).また,n-gram 言語モデルでは捉えられない素性も検討するため,Support Vector Machine (SVM) と Random Forest により各ツイートを盛り上がり時間帯の二値分類を行い,盛り上がり時間帯の特徴として漢字数が少ないことが明らかになった.
著者
辰巳 直也 馬場 隆 森勢 将雅 片寄 晴弘
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.12, pp.1-6, 2012-01-27

Vocaloid 「初音ミク」 の発売以来,歌唱合成に対する注目が高まりつつある.Vocaloid では,メロディと歌詞を入力することにより,サンプリングされた人の声を元にした歌声を合成することができる.また,表情パラメタを調整することにより,様々な表情を付与することができる.しかし,より人間らしい表情豊かな歌声にするには,表情パラメタの調整を細かく設定することが必要なため,非常に煩雑で時間がかかる.本研究では,Vocaloid 歌唱をロック歌手風の歌い方に変換し,Vocaloid 歌唱における作り込みを支援する 「ロックボーカルレゾネータ」 の提案をする.
著者
荒牧 英治 増川 佐知子 森田 瑞樹
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.1, pp.1-8, 2011-05-09

近年のTwitterの普及とともに,そこから有益な情報を抽出する研究の需要が高まっている.本研究ではインフルエンザ流行予測の問題に焦点をあてる.まず,Twitterからインフルエンザに関連した発言を抽出する.次に,SVMを用いた分類器で,その発言者が実際にインフルエンザにかかっているかどうかを判定する.実験では,厚労省報告の症例数と比較し相関係数0.89の精度で流行予測することができ,提案手法の有効性を示した.特に,流行の開始時期においては,相関係数は0.97と高く,最先端の手法であるGoogle Fluトレンドと同等の精度が得られた.本研究によって,Twitter上のテキストが現実の疾病状態を反映していること,また,言語処理技術によって,その情報が抽出可能であることを示した.With the recent rise in popularity and size of social media, there is a growing need for systems that can extract useful information from this amount of data. We address the problem of detecting influenza epidemics. First, the proposed system extracts the influenza related tweets using Twitter API. Then, the SVM based classifies extracts only tweets that include real influenza patients. The experiments demonstrated the feasibility of the proposed approach (0.89 of the correlation to the gold standard). Especially in the rise of the influenza (early stage of the epidemics), the proposed method shows the high accuracy (0.97 correlation), which is the same accuracy to the state-of-the-art method. This paper demonstrated that Twitter texts reflect the real world, and Natural Language Processing (NLP) technique could extracts the information.
著者
得丸 公明
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011-SLP-86, no.16, pp.1-8, 2011-05-09

今日に至るまで,文法とは何か,文法のメカニズムはどうなっているのかということについて,十分に検討が行なわれたり,議論されたり,解明されることはなかった.デカルト派言語学を自認するチョムスキーが提起した難題「ヒトは状況に応じて新しい文を作ることができ,それをたった一度発話するだけで,聞き手がただちにそれを理解できるのはなぜか」を,生成文法論者を含めてまだ誰も解明できていない(1).チョムスキー自身は「この問題が人間の知的な能力の範囲内にはない」,「神の介在なしにはありえない」と述べている(2).だが,未解明の理由のひとつは,構造主義の「形態素」・「遺伝子型/表現型」概念と似て非なる「語形成素」・「深層構造/表層構造」という概念を用いるためではないか.また言語のメカニズムは社会科学でも自然科学でもなく,符号理論として取り扱うべきではないか.筆者は,ヒトの言語は脳内の自律的な神経細胞ネットワーク上で作動するデジタル通信システムであり,文法は情報源符号化と通信路符号化という二つのデジタル符号化メカニズムのシナジー(相乗)効果によって生み出された一連の機能を指し示す音響符号語であると考える.デカルトの結論に反して動物も論理装置や概念をもっており,ヒトのヒト以外の動物に対する質的相違は二重符号化文法に求められる.
著者
小池 誠
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2019-SLP-128, no.11, pp.1-3, 2019-07-12

マイクロ波聴覚効果を応用することにより,受信者の頭部に直接,音声メッセージを伝える無線通信が実現するとされている.本稿では,搬送波の周波数そのものがマイクロ波聴覚効果を発現するのでなく,搬送波として作用する2つの周波数の差分がマイクロ波聴覚効果を発現させる.具体的には,2つの周波数を搬送波とする1本のミリ波ビームを受信者の頭部に照射して,マイクロ波聴覚効果により頭部が音声を復調する.搬送波の予想及び検出が困難となり,検出を回避することができる.
著者
土井 啓成 中村 圭吾 戸田 智基 猿渡 洋 鹿野 清宏
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.18, pp.1-6, 2009-07-10
参考文献数
11

喉頭摘出者が行う発声法の一つに,食道等を用いて音源を生成し,発声を行う食道発声法がある.食道発声法は国内で広く使用されているが,生成された音声は健常者の音声と比較して不自然である.本稿では,食道発声音声の音質改善を目指し,食道発声音声から健常者音声への統計的声質変換を用いた音質改善法 (ES-to-Speech) を提案する.健常者音声のスペクトル特徴量や F₀,非周期成分といった音源特徴量は,それぞれ食道発声音声のスペクトル特徴量から独立に推定する.変換音声の客観評価実験及び,主観評価実験結果から,ES-to-Speech は,食道発声と同等の明瞭性を保ったまま,自然性を大きく改善できることを示す.また,F₀ 推定時に,入力特徴量として食道発声音声のスペクトルと F₀ の併用も試みることで,食道発声音声の F₀ 情報を用いる効果を検証する.This paper proposes a novel method of enhancing esophageal speech based on statistical voice conversion. Esophageal speech is one of the speaking methods for total laryngectomees to speak by generating sound excitations at their esophagus. Although esophageal speech is the major method in Japan, the generated voices sound unnatural. To improve naturalness of the esophageal speech, we propose a conversion method from esophageal speech to normal speech (ES-to-Speech) using a statistical voice conversion technique. Spectral features and excitation features, such as F₀ and aperiodic components, of the normal speech are independently estimated from the spectral features of the esophageal speech based on the maximum likelihood criterion. The effectiveness of ES-to-Speech is evaluated by conducting objective and subjective experiments to demonstrate that the proposed method yields significant improvements in naturalness of esophageal speech while keeping its intelligibility.
著者
小池 誠
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.35, pp.1-8, 2018-06-09

マイクロ波聴覚効果とは矩形波のマイクロ波が聴覚を刺激する現象である.そこで,マイクロ波聴覚効果を応用したマイクロ波通信,即ち,テレパシー通信では,音声信号でパルス変調されたマイクロ波を搬送波として,受信者の頭部にビーム照射することにより,マイクロ波聴覚効果により頭部が音声信号を復調する.テレパシー通信では,ビーム幅が小さく,かつ,ビーム径が小さなマイクロ波ビームを形成することが求められる.そこで,マイクロ波のみを頭部に照射するのでなく,別途,レーザービームを頭部に照射して,大気中の気体分子をイオン化して,微量のプラズマをらせん状のビーム経路に生成する.すると,プラズマが導波管として作用して,マイクロ波がプラズマ導波管の内部をビームとなって直進し,特定の受信者のみが声を聴くことができる.
著者
得丸 公明
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.16, pp.1-8, 2011-05-09
被引用文献数
1

今日に至るまで,文法とは何か,文法のメカニズムはどうなっているのかということについて,十分に検討が行なわれたり,議論されたり,解明されることはなかった.デカルト派言語学を自認するチョムスキーが提起した難題「ヒトは状況に応じて新しい文を作ることができ,それをたった一度発話するだけで,聞き手がただちにそれを理解できるのはなぜか」を,生成文法論者を含めてまだ誰も解明できていない(1).チョムスキー自身は「この問題が人間の知的な能力の範囲内にはない」,「神の介在なしにはありえない」と述べている(2).だが,未解明の理由のひとつは,構造主義の「形態素」・「遺伝子型/表現型」概念と似て非なる「語形成素」・「深層構造/表層構造」という概念を用いるためではないか.また言語のメカニズムは社会科学でも自然科学でもなく,符号理論として取り扱うべきではないか.筆者は,ヒトの言語は脳内の自律的な神経細胞ネットワーク上で作動するデジタル通信システムであり,文法は情報源符号化と通信路符号化という二つのデジタル符号化メカニズムのシナジー(相乗)効果によって生み出された一連の機能を指し示す音響符号語であると考える.デカルトの結論に反して動物も論理装置や概念をもっており,ヒトのヒト以外の動物に対する質的相違は二重符号化文法に求められる.To this date, the mechanism of grammar has not yet been fully investigated, discussed or clarified. Why human can compose an appropriate new sentence in a particular situation, and, why, with hearing it only once, others can understand it immediately?(1) This Chomsky's conundrum has not yet been solved and explained by anybody including Chomsky himself. He, a Cartesian Linguist in his definition, indicated that this conundrum is "not within the range of human intellectual capacities" and "requiring divine intervention"(2). However the author surmises that the application of concepts such as "formatives" and "deep/surface structures" by Chomskians, which are alike but different from those of "morpheme" and "signifie/signifiant" in structuralism, are confusing and could be responsible for the failure. The author surmises that the human language is a digital communication system, operated by autonomous nerve cell networks inside brain, and that its grammar is a series of phonetic functional codes generated by a synergy of two digital coding mechanisms, namely the source coding and the channel coding. It seems that, despite the Cartesian conclusion, non-human animals have logical device, acquire concepts and establish concept system, and that the qualitative superiority of humans against non-human animals seems to be the double coding grammar.
著者
本間 幸徳 貞光 九月 西田 京介 浅野 久子 松尾 義博
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2017-SLP-116, no.26, pp.1-6, 2017-05-08

本稿では,ある文書におけるユーザの検索要求に対し,一つ以上の文を回答として提示する部分文書検索手法を提案する.検索要求によっては提示すべき文が文書中に散在する場合があるため,提案手法では,文間の関係性に基づいて推定した文書構造を用いることで,文書に散在する文の集合を部分文書として抽出する.また抽出された部分文書について,分散表現を利用した意昧ベクトルを作成し,検索スコアの算出に用いることで検索精度の向上を図る.評価実験により,文書構造に基づいて部分文書を抽出し,対応する意昧ベクトルを検索に用いることで,ユーザの検索要求に適した検索結果が得られることを示す.