著者
森勢 将雅 河原 英紀 小川 真
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.9, pp.1-6, 2012-01-27

急速に普及した動画共有サイトとコンテンツ制作支援のソフトウェアは,アマチュアクリエイタにも作品を公開する場と技術を与えた.現在では,複数のクリエイタの協調的な創造活動により,高い品質のコンテンツが多数生み出されている.また,クリエイタが利用するためのソフトウェア開発に関しても協調的な創造活動が行われ,優れたソフトウェアが創出されている.本稿では,歌声合成ソフトウェアをターゲットとし,誰でも利用可能な歌声合成技術を開発・公開することで,歌声合成ソフトウェア開発者間で協調的創造活動が創出されるか社会実験を試みた結果について示す.
著者
橘 誠 才野 慶二郎 久湊 裕司
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2013, no.22, pp.1-6, 2013-12-12

HMM 音声合成は統計的な韻律のモデル化により,話者性やスタイルを柔軟に多様化することができる.本稿では,その表現力を波形素片接続型の歌声合成システムである VOCALOID™ に取り入れる方法として,歌唱表現が現れる重要な特徴と考えられるピッチの変化をHMMでモデル化,生成する歌唱スタイル生成手法を提案する.HMM音声合成手法を歌唱スタイルのモデル化に利用する際には,未知の音高に対しても適切なパラメータ生成を行う必要がある.そこで本研究ではピッチベンドチェンジを用いたモデル化を提案する.また,長い時間伸ばされる音符に対して自然な変動を付与するため,ノート内を複数のセグメントに分割した単位でモデル化し,多段階のコンテキストクラスタリングを導入して楽曲構造と音符内の変動を階層的に表現する.また,この手法をVOCALOID™3の機能である Job Plugin として組み込んだ例を紹介する.Recent HMM-based speech synthesis systems have the capability to control speaker/style characteristics by statistically modeling prosodic features of speech. In this paper, we aim to introduce such flexibility into VOCALOID™, a singing voice synthesizer based on concatenative synthesis. An HMM is used to model the pitch trajectory, which is an important feature for expressing singing style. In order to synthesize appropriate results for pitches which do not have training data, we propose using pitch bend change as a feature for training the HMM. We also propose a segment-level unit modeling and multiple-stage clustering technique for the expression of long note sequences. We show the proposed technique implemented as a VOCALOID™3 Job Plugin.
著者
大家 眸美 宮下 芳明
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013-SLP-95, no.15, pp.1-2, 2013-01-25

Twitter 等におけるネガティブな感情表現の不快感を緩和する手法として,筆者らはこれまでポジティブな表現に言い換える手法を提案してきたが,本稿では,その文章の信頼性を下げる言い換えを行うことによって緩和する手法を提案する.信頼性を下げる手法としては,文章に文字化けを混入させたり,誤変換を行ったり,むやみなカタカナ語を使用したり,文末を変更することによって他人が言っていたことにしたり夢オチにすることによって実現している.
著者
剣持 秀紀
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.4, pp.1-4, 2012-01-27

本稿では、2011 年 10 月に発売された歌声合成ソフトウェア VOCALOID の新しいバージョンである VOCALOID3 について、そのポイント (品質面からの改良点、ユーザインタフェースの改良点) を紹介する。また新しく導入された VOCALOID Job Plugin という簡単なスクリプト言語で記述可能な機能拡張のための仕組みについて、その具体的な応用可能性について解説する。
著者
榎本 美香 石本 祐一
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2009-SLP-77, no.23, pp.1-6, 2009-07-10

本研究の目的は,「うん」 という発話の音響特性から応答・承認・相槌という発話機能を弁別することにある.自然対話 (8 対話) の中に出現した 「うん」 (N=239) の発話機能を弁別するため,一般化線形モデルの当てはめと主成分分析を行った結果,F₀ レンジ,F₀ 最大値,F₀ 平均値,パワー最大値という音響パラメータを用いれば,相槌のうんが 88% 弁別可能であった.このことは,特に相槌の 「うん」 の音響的推定が有効であることを示す.
著者
真坂 健太 相原 龍 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.17, pp.1-6, 2014-12-08

声質変換は,入力した音声を音韻情報などは保ったまま,話者性のような特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の代表的な手法である GMM を用いた統計的なアプローチ等は,あくまでクリーン音声を用いた評価を行っており,雑音環境下を考慮した定式化はされていない本研究では,雑音環境下での声質変換など,これまでになかったタスクに対応可能な非負値行列因子分解 (Non-negative Matrix Factorization:NMF) による声質変換を扱う.我々はこれまで,この NMF に基づいた,音声だけではなく唇画像情報を用いたマルチモーダルな声質変換手法を提案してきた.入力話者の特徴量として,音声と画像情報を用いることで変換精度,及びノイズロバスト性の向上を目指した.本論文では,さらに特徴量重みを導入し,新たにコスト関数を提案した.実験結果より,音声情報のみを用いた NMF による声質変換,及び GMM による声質変換よりも提案手法が精度の良い変換が行える事を示す.Voice conversion is a technique for converting specific information in speech while maintaining the other information, such as linguistic information. This technique has been applied to various tasks, for example, there are speaker conversion, emotion conversion and speaking assistance, etc. The GMM-based method is conventional VC method and widely used. In noisy environments, the GMM-based method cannot convert the speech well, because this method cannot model the noisy signal well. Therefore, we have been researched about a noise-robust VC method using Non Negative Matrix Factorization (NMF). In this paper, we propose a multimodal VC method that improves the noise robustness of our previous exemplar-based VC method. Furthermore, we introduce the combination weight between audio and visual features and formulate a new cost function in order to estimate the audio-visual exemplars. By using the joint audio-visual features as source features, the VC performance is improved compared to a previous audio-input exemplar-based VC method. The effectiveness of this method was confirmed by comparing it with that of the conventional audio input NMF-based method and the conventional GMM-based method.
著者
中鹿 亘 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.30, pp.1-6, 2014-12-08

質変換は,入力した音声を音韻情報などを保ったまま,話者性に関する特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の多くの声質変換手法は,同一発話内容の入出力音声対 (パラレルデータ) を学習時に必要とするが,予め発話内容を決めておく必要がある,音声間のアライメントを取る必要があるなど,学習データを慎重に用意しなければならないという問題がある.また,変換モデルの利用は学習された話者対のみに限定されてしまう.本研究では,パラレルデータを必要としない任意話者声質変換を実現するため,確率モデルの一つである Restricted Boltzmann machine(RBM) を拡張した話者適応型 RBM(Adaptive restricted Boltzmann machine; ARBM) を新たに提案する.適応型 RBM は可視素子層と隠れ素子層からなる二層の確率モデルであり,異なる層の素子間には話者によって変化する結合重みが存在する.本稿では,適応型 RBM を用いた任意話者声質変換に関する評価実験の結果について報告する.Voice conversion (VC) is a technique where only speaker-specific information in source speech is converted while keeping phonological information. The technique can be applied to various tasks such as speaker-identity conversion, emotion conversion and aid to speaking for people with articulation disorders. Most of the existing VC methods rely on parallel data—pairs of speech data from source and target speakers uttering the same articles. However, this approach involves several problems; firstly, the data used for the training is limited to the pre-defined articles. Secondly, the use of the trained model is limited only to the speaker pair used in the training. In this paper, we propose a novel probabilistic model called an adaptive restricted Boltzmann machine (ARBM) for VC between arbitrary speakers without use of parallel data. This model consists of a visible-unit and a hidden-unit layer with the speaker-dependent connection. In this paper, we report our experimental results of arbitrary-speaker VC using our model, an ARBM.
著者
平沢 純一 村上 久幸 田中 幸 木伏 祐治
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:18840930)
巻号頁・発行日
vol.2010, no.10, pp.1-4, 2010-10-22
被引用文献数
1

音声認識エンジンを用いて音声認識 HMI の製品・サービスを開発するカスタマは,品質 (認識精度) について何をどのようにリクエストしてくるのか?を紹介しながら,音声認識エンジンのベンダはどのような技術サポートを提供することが可能なのか?を議論する.議論のポイントは,「カスタマからの期待」 と 「現在の音声認識技術で可能な技術サポートの現実レベル」 との間に存在する溝を,どのようにして埋めたらよいのか?である.This article describes how customers developing products and services with speech HMI would question and request for speech recognition engine vendors in terms of speech recognition accuracy requirement. It also discusses what types of support speech vendors can provide in response to their requests. The key issue here is to fill the gaps between customers' expectations and what speech vendors could actually provide.
著者
徳田 恵一 大浦 圭一郎
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.1, pp.1-6, 2012-01-27

本稿では,HMM 音声合成の手法に基づいた歌声合成システム “Sinsy” について述べる.本システムは,歌声データと対応する歌詞付きの楽譜から,モデルパラメータを自動学習するものであり,学習後は,歌詞付きの楽譜を与えることにより,歌声データ提供者の声質,歌い方等を再現する形で,任意の曲を自動で歌わせることができる.まずはじめに HMM 音声合成について概説し,それがどのように歌声合成に拡張されるかについて述べる.また,2009 年 12 月に開設されたオンラインデモについて触れた上で,今後の技術開発に関してどのような展開が期待されるかについて議論する.
著者
小川 真 矢崎 俊志 阿部 公輝
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.10, pp.1-7, 2012-01-27

VOCALOID 「初音ミク」 の発売以来,ユーザが自由に歌声ライブラリを制作できるフリーの歌声合成器 UTAU が開発されるなど,歌声合成への関心が高まっている.これら歌声合成器は主にアマチュアの音楽制作に使用されるが,ユーザが声色を任意時刻に混ぜて指定する機能がない.また,声色操作を行うことで処理時間やデータ量が大きくなる.本研究では音声合成分析系 WORLD を用い,メルケプストラムと Vorbis による励起信号からなるコーパスを声色別に収録し,各音素間を時間伸縮関数で接続することで,ユーザがモーフィング率を指定し声色を操作できる歌声合成器 v.Connect を開発した.提案手法を用いて歌声コーパス 「波音リツコネクト」 を制作した.このコーパスの容量は波形の 2 倍程度であった.合成速度は 1.7~2.2 倍と改善され,圧縮による劣化は主観的には感じられなかった.
著者
木原 裕二 笹野 遼平 高村 大也 奥村 学
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014-SLP-101, no.19, pp.1-6, 2014-05-15

ソーシャルメディアのユーザの中には複数のソーシャルメディアのアカウントを関連付けずに使用しているユーザがいる.しかし,特徴的な表現や話題などから,それらの複数のアカウントが同じユーザにより作成されたものであると第三者に推測されてしまう場合がある.本研究では,まず,Twitter とブログの著者の同一性推定システムを構築することにより,どのような特徴がこれらのアカウントが同じユーザにより作成されたものと判断される要因となるのかを明らかにし,そこから得られた知見をもとにした関連付け防止システムの構築を行う.
著者
鈴木直人 廣井富 藤原祐磨 黒田尚孝 戸塚典子 千葉祐弥 伊藤彰則
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.9, pp.1-6, 2013-12-12

英会話練習をする際は対話相手が必要であり,相手との会話がテンポ良く行えるようになる練習が求められる.CALL (Computer-Assited Language Learning) システムにおいて,学習者の応答のタイミングを向上させるような枠組みは無いのが現状である.英会話練習の際には発話内容を想起し,それを英語で表現する 2 重の認知的負荷がかかるため,交代潜時が長くなりがちであるが,対話の最初から意識的に交代潜時を短くしていくためには学習者に対して明示的な方法を用いるべきである.そこで本研究では対話相手として AR (Augmented Reality) キャラクタを設定し,タイムプレッシャー表現をかけたときに応答タイミングの練習として有効であるかどうかを実験により検証することを試みた.実験参加者にはタイムプレッシャーの有無で 2 通りの対話を行い,最後に主観評価のアンケートを行った.本稿では以上の結果と主観評価を踏まえた考察を報告する.
著者
水本智也 松本裕治
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.4, pp.1-5, 2014-05-15

第 2 言語を学習する人が増え,コンピュータによる第 2 言語学習支援に関する研究が盛んに行なわれている.その中でも特に英語の文法誤り訂正の研究が行なわれており,文法誤り訂正の性能を競う世界規模の Shared Task が 4 年連続で開催される.学習者の犯す誤りは様々なタイプがあり,全ての誤りタイプを訂正するために,統計的機械翻訳を用いた誤り訂正が提案されている.本稿では,統計的機械翻訳による誤り訂正結果の n-best の中に,1-best の場合よりもよい訂正が含まれていることに注目する.実際の出力結果を分析することで,リランキングによる性能向上が可能であるかを議論する.
著者
秋葉巌 松山洋一 小林哲則
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.10, pp.1-8, 2013-07-18

多人数会話において発生する発話機会の不均衡を調整するために,機会が十分に与えられず 「置いてけぼり」 状態になっている会話参加者に適切な手続きを経て発話機会を与えることのできる会話ロボットを提案する.特に,ファシリテーションのモデルを扱うための最小単位である 4 者会話 (ロボットを含む) を対象として,主導的に会話を進めている参加者らの状況も考慮しながら,段階的に主導権を奪取し,しかるべき対象者に発話機会を与えるような手続きの計算モデルを提案する.モデル化には,誤りを含むセンサ情報にロバストな部分観測マルコフ決定過程 (POMDP) を用いる.さらに手続きとそのタイミングの適切性について評価した被験者実験の結果を報告する.We propose a facilitation robot harmonizing four-participant conversations. Four-participant conversation is the minimum unit that needs facilitation skills. In general, three is the minimum number of participants of a multiparty conversation. In such three-participant situations, back-and-forth interactions between two participants out of three primarily occur and another participant tends to be left behind, who cannot properly get floors to speak. Here, they need one more participant who helps the participant left behind to harmonize him/her with the others. Conversational robots have potentials to participate in such conversations as the fourth participant. When the robot steps in the situation to help, there should be proper facilitating procedures to obtain initiatives to control conversational contexts. In this paper, we propose a conversational robot system harmonizing four-participant conversations along procedures of obtaining initiatives of topic and floor control. These situations and procedures were modeled and optimized as the partially observable Markov decision process. We conducted an experiment to evaluate appropriateness of the proposal procedures and the result shows evidence of its acceptability.
著者
菊地 泰己 桂田 浩一 入部 百合絵 新田 恒雄
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.7, pp.1-2, 2013-01-25

本論文では,一般的な Web ブラウザ上でマルチモーダル対話システムを可能にするための JavaScrip tライブラリ MMI.js を提案する. MMI.js は,逐次的,同時的,択一的なマルチモーダル入出力の制御,入出力のタイミング制御,エージェントによるプレゼンテーションの各機能をサポートしている. MMI.js の有用性を確認するために,本研究室で開発している英語の発音訓練ソフトにマルチモーダルインターフェースを組み込んだ.これにより複数の入出力手段を組み合わせた複雑な対話を容易に記述できることを確認した.This paper proposes a JavaScript library called "MMI.js" which enables us to use multiple modalities on web browsers. This library supports sequential multimodal inputs/outputs, simultaneous multimodal inputs/outputs, alternative multimodal inputs/outputs, synchronization of multimodal inputs/outputs and gestures given by the dialogue agents. To show usefulness of this library, we embedded multimodal interaction into a pronunciation training application for Japanese students. Through the development of this application, we confirmed the library makes it easy to describe combination of multiple inputs/outputs appearing in complicated interaction.
著者
宮崎 将隆 川端 豪
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2009, no.2, pp.1-6, 2009-07-10
参考文献数
6

本報告ではtfidf法に基づく話題キーワード選択法の改良を行う.ブログなどの限定された少数ページから tfidf を計算しようとすると,その基となる tf 及び idf の値が精度良く求められない.まず,idf については Web ページ全体から算出した idf で Wikipedia から算出した idf を近似できることが分かった.次に,tf については単語共起に基づくクラスタリング手法を導入し,キーワードのグループを構成した.少数ページから tf の計数を行う際に,グループに含まれるすべての単語の計数値の総和で代用する.実験によって,このようにして求めたグループ tf が真の tf と強い相関を持つことを確認した.This paper describes an improvement of the keyword selection criteria based on the "tfidf" measure. It is very difficult to estimate "tf (term frequency)" and "idf (inverse document frequency)" values from small amount of weblog pages. First, we investigate an approximation of the world wide idf value as the Wikipedia idf value. Experiments show that this idf approximation is promising. Secondly, we apply the clustering method to word co-occurrence and make several word groups. The tf value of a keyword is extrapolated as the sum of its group word frequency. Experiments show that the group-word based tf values counted in small amount of pages are strongly correlated to the true tf values.
著者
ゴメス・ランディ 河原 達也
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.5, pp.1-6, 2010-07-15

本稿では、音声認識のためのウエーブレットに基づく残響抑圧法について述べる。残響抑圧は、遅い残響成分の影響を抑圧するように、ウエーブレット係数をウイナーゲインでフィルタリングすることで行なう。音響モデルの尤度に基づいてウエーブレットのパラメータを最適化することで、元音声と遅い残響成分をそれぞれ効果的に推定することができ、これにより、音声認識に適した残響抑圧のためのウイナーゲインを求めることができる。このウイナーゲイン自体も音響モデルの尤度を用いて調整することで、さらに残響抑圧が改善される。残響のある実データを用いた評価実験により、有意な音声認識精度の改善を得ることができた。This paper presents an improved wavelet-based dereverberation method for automatic speech recognition (ASR). Dereverberation is based on filtering reverberant wavelet coefficients with the Wiener gains to suppress the effect of the late reflections. Optimization of the wavelet parameters using acoustic model enables the system to estimate the clean speech and late reflections effectively. This results to a better estimate of the Wiener gains for dereverberation in the ASR application. Additional tuning of the parameters of the Wiener gain in relation with the acoustic model further improves the dereverberation process for ASR. In the experiment with real reverberant data, we have achieved a significant improvement in ASR accuracy.
著者
翠 輝久 大竹 清敬 堀 智織 河井 恒 柏岡 秀紀 中村 哲
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.10, pp.1-6, 2011-07-14

ユーザがシステムから情報提示を受けながら候補を選択する意志決定型の音声対話システム構築と被験者実験の結果を報告する.これまで我々は,意志決定対話を部分観測マルコフ過程 (POMDP) としてモデル化し,ユーザの意志決定の良さを最大化するための対話戦略の最適化を行ってきた.本稿では,提案モデルを用いた対話制御手法と複数のベースライン手法とを被験者実験により評価した結果を報告し,ユーザシミュレーション環境で有効性を確認した提案手法が,実ユーザを対象とした場合でも有効であることを示す.This paper presents the results of the user evaluation of spoken decision support dialogue systems, which help users select from a set of alternatives. Thus far, we have modeled this decision support dialogue as a partially observable Markov decision process (POMDP), and optimized its dialogue strategy to maximize the value of the user's decision. In this paper, we present a comparative evaluation of the optimized dialogue strategy with several baseline strategies, and demonstrate that the optimized dialogue strategy that was effective in user simulation experiments works well in an evaluation by real users.
著者
岡村 直人 関 和広 上原 邦昭
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.9, pp.1-7, 2011-05-09

感染症サーベイランスには,大別して医療機関の情報を利用した方法とWeb情報を利用した方法がある.Web情報はリアルタイム性が高く,感染症の蔓延防止を目的とする感染症サーベイランスに有用である可能性がある.本論文では,Web情報,特にソーシャルメディアを用いた感染症サーベイランスの第一歩として,インフルエンザを対象にTwitterの有効性を実験的に調査する.Twitterに投稿されたインフルエンザの症状を含むtweetの分類を行い,実際のインフルエンザ報告件数との関係を分析する.There are roughly two types of syndromic surveillance; One uses information from medical institutions and another gathers information from the Web. The information used by the latter, such as consumer generated media (CGM), may reflect more real-time events and thus may be more useful for syndromic surveillance since detecting early infection of a target syndrome prevents wider spread of the syndrome. This paper investigates the usefulness of CGM, specifically microblogs, for syndromic surveillance focusing on influenza. We collect a number of microblog posts (tweets) which include symptoms of influenza and study their size and transition against those of reported true influenza cases.
著者
久保 陽太郎 渡部 晋治 中村 篤 小林 哲則
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.8, pp.1-6, 2010-02-05

識別学習は,デコーダの出力する認識仮説と比較して正解ラベルの尤度を相対的に高めることで識別に特化したモデルを得るための手法であるが,経験的に過学習しやすいことが知られている.近年,音響モデルの識別学習において過学習を軽減するため,最小相対エントロピー識別が音響モデルの識別学習に導入されてきた.この手法ではパラメタ推定の不確実性をパラメタ分布によって表現することで適切に取り扱うことを可能としており過学習に強いと考えられるが,従来の実現法では大量の認識仮説,および大量のトレーニングデータを取り扱うには膨大な量の計算を単一のコンピュータで実行しなければならなかった.そこで,本研究では,ラティス型認識仮説表現を導入することで認識仮説の数に対する計算効率を,また勾配法に基づく並列化可能な最適化法を導入することでトレーニングデータの数に対する並列計算効率を向上させた.提案法を用いることで,最小相対エントロピー識別学習に必要なステップのほぼ全てがグリッドコンピュータのような並列計算環境で実現可能になり,また,従来の N-best に基づく認識仮説表現では表現しきれないような膨大な数の認識仮説に対する最適化が行なえるようになった.In order to improve the performance of automatic speech recognition, discriminative training methods are introduced for training processes of acoustic models in speech recognizers. Recently, minimum relative entropy discrimination (MRED) training of acoustic models is introduced in order to prevent overfitting problems in discriminative training methods by representing parameters as random variables. Despite of these advantages, the conventional implementation of MRED lacks scalability to the amount of training dataset and the number of the hypothesis label sequences obtained from decoders. In this study, we attempt to improve scalability of MRED training. The lattice-based representations of the hypothesis label sequences are introduced in order to improve scalability due to the number of the hypothesis label sequences. Further, the gradient-based optimization method is introduced in order to ensure parallelism in the MRED training method. By incorpolating proposed methods, it is confirmed that the MRED training procedure can now be performed in parallel computing environments such as grid computers. Furthremore, the large number of the hypothesis label sequences can be handled in the MRED by using hypothesis lattices obtained from decoders.