著者
林 耕平 高橋 登紀夫 永田 晃弘 嵯峨山 茂樹
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-122, no.45, pp.1-5, 2018-06-09

これまで,人間の演奏に自動伴奏付けを行う研究は広く行われてきたが,奏者は与えられた楽譜に従って演奏を行うという前提があった.そこで,本稿ではドラムスという楽器における,より即興的な演奏に対して自動伴奏付けを行う手法について議論する.まず,自由なドラムス演奏をリズムパターンの同期遷移や接続によって行われるものとして近似し,HMM (Hidden Markov Model) を用いてモデル化を行う.モデルの確率的な逆問題を解くことで,演奏のリズムパターンや演奏箇所の推定を行う.具体的には複数の尤度計算とテンポ推定を行い,Viterbi アルゴリズムによってモデルの最尤状態を推定する.また,ここまでの手法を評価するために実験を行い,高い精度で演奏箇所の推定が行われることを示す.更に,本稿では自動伴奏付けの構想についても述べる.
著者
李 清宰 河原 達也 Rudnicky Alexander
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011-SLP-87, no.9, pp.1-6, 2011-07-14

Amazon Mechanical Turk (MTurk) を用いて効率的に音声データを収集する方法について述べる。音声検索の評価用セットのための音声データを収集するタスク (HIT)、及び収集されたデータの品質を検証するタスクを設計した。1000 以上の発話をきわめて効率的に収集することができた。そのうち 90% 以上は正しい書き起こしがある有用なデータであり、妥当な音声認識精度が得られた。このデータを用いて、音声により書籍を検索するシステムの評価を行った。その結果、意味スロット毎に用意したベクトル空間モデルを組み合わせる提案手法が、従来の単純なベクトル空間モデルに比べて、高い検索性能を実現することを確認した。
著者
白石 仁 五十嵐 聡 原田 実
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2013, no.10, pp.1-6, 2013-05-16

本研究では,人間と計算機の自然な対話を実現することを目的に,質問応答と類推応答を用いて物語中の人物と対話できる対話システム EVE の研究開発を行った.EVE はユーザの発話に対して意味解析を行い,モダリティをもとに質問応答型推論か類推応答型推論から適切な応答推論方式を選択し,応答を生成する.質問応答型推論は,質問応答システム Metis を利用して,発話文や地の文から質問に対する回答を生成する.類推応答型推論では,ユーザの発話と意味的に類似した発話を,グラフ類似度を基に物語内の発話から検索し,この類似発話に対する物語内での応答発話に対して,ユーザ発話と類似発話の対応関係を応答発話に適用して得られた発話を生成する.小説は 「シャーロック・ホームズ」 の短篇集を用いた.In the present study, the conversation system Eve to be able to talk with the person in the story by using the question answering and the analogy response to achieve a natural conversation of man and the computer was developed. Eve performs the semantic analysis to the user's utterance, selects an appropriate response inference from the question answering type response inference or the analogy type response inference based on the modality, and generates the appropriate response. The question answering type response inference generates the answer to the question from the utterance sentence and the sentence of ground by using question answering system Metis. The analogy type response inference generates the response transformed from the response to the utterance in the story which has the highest graph similarity to the user utterance by applying the correspondence relation between the user utterance and the similar utterance in the story. A short collection of "Sherlock Holmes" was used as a novel.
著者
今井 亨 奥 貴裕 小林 彰夫
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.4, pp.1-6, 2011-10-21
被引用文献数
1

テレビ番組の音声を文字で伝える字幕放送は,聴覚障害者や高齢者への重要な情報保障手段の一つである.1985 年の字幕放送開始以来,リアルタイムの日本語文字入力方法が確立されていなかったため,字幕が付与される番組は長い間事前収録番組に限られていた.NHK では,他の研究機関とも連携してニュース音声認識の研究を進め,世界に先駆けて 2000 年に音声認識によるニュース番組のリアルタイム字幕放送を開始した.番組音声を直接認識する本ダイレクト方式の実用化後,スポーツ番組の実況アナウンス等の復唱音声を認識するリスピーク方式の字幕制作システムの実用化などにより,リアルタイム字幕放送は年々拡充されるようになった.また,両方式を併用して認識性能と運用性を高めた,ハイブリッド方式のニュース番組用字幕制作システムの実用化も,現在検討を進めている.本稿では,字幕放送の現状と音声認識を利用した各種字幕制作システムを紹介するとともに,その技術的特徴と実用化の経緯について述べる.Closed-captioning for broadcast, which displays spoken words as texts on the TV screen, is one of important media for the hearing impaired and the elderly. Since starting in 1985, closed-captioning has been provided only to prerecorded TV programs due to lack of a real-time input method of Japanese texts. NHK has done extensive research on speech recognition for news with other research institutes and led the world in real-time closed-captioning for broadcast news by speech recognition in 2000. Besides the direct method recognizing the original program sound, NHK realized a re-speaking method where rephrased utterances by another speaker are recognized for captioning of sports programs, resulting in expansion of live closed-captioning every year. Also a new hybrid method combined with both methods will be put into practical use for more accurate and efficient captioning of news programs soon. This paper introduces current situation of closed-captioning for live broadcast and the real-time closed-captioning systems with their technological features and the ways how they were implemented.
著者
Xinyi Zhao Nobuaki Minematsu Daisuke Saito
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2018-SLP-125, no.17, pp.1-4, 2018-12-03

In English education, speech synthesis technologies can be effectively used to develop a reading tutor to show students how to read given sentences in a natural and native way. The tutor can not only provide native-like audio of the input sentences but also visualize required prosodic structure to read those sentences aloud naturally. As the first step to develop such a reading tutor, prosodic events that can imply the intonation of the sentence need to be predicted from plain text. In this research, phrase boundary and 4-level stress instead of the traditional binary stress level are taken into consideration as prosodic events. 4-level stress labels not only categorize syllables into stressed ones and unstressed ones, but also indicate where phrase stress and sentence stress should appear in a sentence. Conditional Random Fields as a popular sequence labeling method are employed to do the prediction work. Experiments showed that applying our proposed method can improve the performance of prosody prediction compared to previous researches.
著者
福増 康佑 松浦 愛美 江口 浩二
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011, no.4, pp.1-7, 2011-05-09

トピックモデルは大規模なテキストデータコレクションの解析に広く使用されているアプローチである.最近,Wikipediaを典型とする並列または比較可能な多言語データにおいて潜在トピックを発見する多言語トピックモデルが研究されている.また,元々は内部構造を持つ文書を対象として開発されたトピックモデルのうち,多言語の文書にも適用可能なものがある.しかしながら,現在まで多言語トピックモデルの比較評価を行った報告は我々の知る限りない.我々は多言語文書データに適用可能ないくつかのトピックモデルの性能を,テストセット対数尤度,トピック割り当てのヒストグラム,そして言語横断ストーリーリンク検出タスクに着目して比較評価した.実験により,これまで多言語に関連した研究に用いられてこなかったトピックモデルのいくつかが,従来研究で用いられた多言語トピックモデルより優れていることを示した.Topic modeling is a widely-used approach to analyze large text collections. Recently a few number of multilingual topic models have been explored to discover latent topics among parallel or comparable documents, such as Wikipedia. Moreover, there are some other topic models that were originally proposed for documents with structure and are also applicable for multilingual documents. However, no comparative studies have been reported for the purpose of multilingual topic modeling, to our knowledge. We compared the performance of various topic models that can be applied to multi-language documents in terms of test-set log-likelihood, histograms of topic assignments, and also in the task of cross-lingual story link detection. We demonstrated through the experiments that several topic models that have not ever used for multilingual context work better than the other multilingual topic models that were used in prior work.
著者
向原 康平 サクリアニ サクティ 吉野 幸一郎 グラム ニュービッグ 中村 哲
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.15, pp.1-6, 2015-11-25

話者感情の揺らぎは音声へ影響を与え,音声認識システムにおいてモデルとのミスマッチを発生させ認識精度を悪化させる.本研究では,DNN ボトルネック特徴量および CNN ボトルネック特徴量を用いることを提案し,感情音声認識精度の改善を図る.ボトルネック構造のニューラルネットワークによって特徴量変換を施したボトルネック特徴量は,入力音声の変動に対して頑健な音響特徴量を抽出できることが示されている.ボトルネック特徴量とは,中間層のユニット数を少なくしたボトルネック構造の多層ニューラルネットワークから抽出する特徴量である.ボトルネック特徴量は特徴量強調が行われ,感情音声のゆらぎに左右されない音素の本質的な成分を抽出されていることが期待されている.本実験では感情音声に対してボトルネック特徴量変換を行い,それぞれの特徴量で GMM-HMM 音響モデルを再学習する.この時のボトルネック音響モデルの感情音声に対する精度向上を確認する.また他の特徴量変換手法と組み合わせることで認識精度の向上を図る.DNN,CNN ボトルネック特徴量を用いた認識精度はそれぞれのベースラインと比較し,認識精度の改善が確認できた.また他の特徴量変換手法の組み合わせにより認識精度の向上を確認できた.
著者
戸塚典子 伊藤彰則
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2013, no.10, pp.1-6, 2013-12-12

音声操作インタフェースがロボットなど移動機構を持つ機器に搭載されると,ユーザが音声によってロボットをリアルタイムで操作するという状況が考えられる.しかしこのような場合,ユーザの言い間違えやシステムの誤認識などによってロボットがユーザの意図せぬ動作をする可能性がある.我々は,そのような動作が発生した際に迅速に修正する手法として,ユーザの意図せぬロボット動作が発生した際のユーザ発話のパラ言語的特徴に着目し,これらをロボットの制御に応用することを提案する.本研究では,被験者実験によって実際にロボットを操作している音声を収集し,ロボットがユーザの意図通りに動作している時とそうでない時で発話速度,基本周波数 (F0),インテンシティに変化が表れるかどうか分析を行った.
著者
小松 綾花 相川 清明
出版者
情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.2, pp.1-6, 2010-02-05

音楽におけるタイトルを一種のマルチモーダル情報と考え、タイトルの効果を分析した。効果音楽と効果音楽のタイトル、仮想タイトルを付加した 3 種類を聴いてもらいタイトルの効果実験を行なった。まず、音楽のみから連想される言葉とその強さを求めた。次に、タイトルを付与した場合の強度変化を求めた。その結果、タイトルの効果は音楽により想起されるイメージのあいまいさに依存することがわかった。This report analyzes the effect of titles for music from the view point of multimodal communication. Subjective tests were conducted for the combinations of music and titles. Associated words and their intensities were obtained on listening music. Then the changes of intensities by presenting their titles were analyzed. The results indicated that the effect of title depended on the intensity of the image evoked by the music.
著者
高木 信二 Sangjin Kim 亀岡 弘和 山岸 順一
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.21, pp.1-6, 2016-12-13

多くの統計的パラメトリック音声合成システムでは,高品質ボコーダを用い,音声波形を構築する.その際,ソース ・ フィルタモデルに基づくボコーダが利用されることが多く,言語特徴量からメルケプストラム,F0 といった音響特徴量を予測し,ボコーダによる音声波形生成が行われる.しかし,ボコーダを用いたことに起因する合成音声の自然性の低下が常に問題となっており,これまで様々な研究が報告されている.しかし,ソース ・ フィルタモデルに基づいている限り,この問題を完全に解決することは容易ではない.そこで本研究では,ボコーダを用いない音声合成システム構築することを考える.具体的には,統計的パラメトリック音声合成において,振幅スペクトルからの位相復元,逆短時間フーリエ変換,および重加算法 (OLA) に基づき波形を生成することについて検討する.今回提案する音声合成の枠組みでは,まず,調波構造を含む振幅スペクトルの予測を DNN 音響モデルにより行い,次に,予測された振幅スペクトルから Griffin / Lim 法により位相を復元することで,音声波形の生成を行う.主観評価実験により,高品質ボコーダを用いた DNN 音声合成システムと提案システムの比較を行った結果,提案法ではボコーダに基づく合成音声特有のバジー感が無い合成音声の生成が可能であることを確認できた.
著者
金子 卓弘 亀岡 弘和 北条 伸克 井島 勇祐 平松 薫 柏野 邦夫
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.20, pp.1-6, 2016-12-13

統計的パラメトリック音声合成は,その柔軟性と省メモリ性などの利点により広く使われている. しかし,この手法で生成した音声パラメータは,学習の際の統計的平均化によって過剰な平滑化が生じ,合成した音声は肉声感が失われる傾向がある. この問題に対し,本稿では,敵対的学習を用いて取得したポストフイルタを用いることにより,失われた肉声感を再構成する手法を提案する.従来研究でも,系列内変動や変調スペクトルに着目して肉声感を取り戻そうという試みはあるが,これらは経験的発見に基づくものであり,合成音声と自然音声の差異の一部に対処しているに過ぎない. これに対して,提案手法は敵対的学習を用いながら,合成音声と自然音声とのギャップを埋めるようなポストフイルタをデータから直接学習しようとするものである. これにより,合成音声の音声特徴量を真の音声の音声特徴量の分布に近づくように変換するポストフイルタを得ることができる.実験では,提案手法を用いることにより,合成音声から分析合成音声に匹敵する音声が得られることを示す.
著者
川井 大陸 山本 一公 中川 聖一
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP) (ISSN:09135685)
巻号頁・発行日
vol.2014, no.2, pp.1-6, 2014-12-08

歌声の自動歌詞認識の第一段階として,本稿では伴奏なし日本語歌唱の自動歌詞認識を行う.このために歌声に適応した言語モデル,音響モデル,発音辞書を使うことで伴奏なし独唱の自動歌詞認識を検討する.言語モデルには歌詞をうまく捉えるために歌詞コーパスで学習した単語 N グラム言語モデルを使用した.音響モデルの学習には,歌声データ不足を補うため少量の歌声データを用いて 2 種類の適応化をした.1 つ目は MAP 適応による音響モデルの適応学習である.MAP 適応では 40 名 40 曲の歌声データを使う方法と,1 曲の話者適応データを使う方法を試みた.2 つ目は朗読 MFCC と歌声 MFCC のペアを使って学習したニューラルネットワークによる特徴変換である.歌声で頻繁に表れる 「伸ばす音」 に対処するため,発音辞書のバリエーションを増やした.性能評価には,事前に伴奏音を除去した JPOP 男性 7 名 7 曲の楽曲を用いる.実験の結果,提案システムは音節認識精度 46.1% (音素認識精度 59.0%),単語認識精度 25.9% を示し,新聞言語モデルと話し声音響モデルに基づく従来のシステムより良い性能を示した.As a first step, we consider Japanese lyrics recognition in monophonic singing that contains no musical instruments. To express singing well, we attempt to use an n-gram language model using a lyrics corpus, singing-adapted GMM-HMM-based acoustic models and plural pronunciation lexicons for vowel-lengthening. We attempted to adapt the read-speech AMs to sung-speech AMs using two approaches. One is MAP adaptation and the other is neural network-based feature transformation. For adapting to singing, we use 40 pieces of music sung by 40 male singers. For adapting to speaker, we use a piece of music sung by a male singer who is the same speaker as a singer of a test data. To deal with the property of singing offten involving lengthening the duration of each vowel, we augment the pronunciation variations. Evaluation is performed on a test set that contains 7 pieces of commercial music sung by 7 male singers. As a result of experiments, our system showed syllable accuracy of 46.1% (phoneme accuracy of 59.0%) and word accuracy of 25.9% in male monophonic Japanese singing. This result showed higher accuracy than a conventional system based on the newspaper LM and the read-speech AM.
著者
鈴木 潤 永田 昌明
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-106, no.16, pp.1-9, 2015-05-18

SkipGram, GloVe といった対数双線形言語モデルに属する単語分散表現のモデルは,これまで確率的勾配法 (SGD) やその拡張である AdaGrad といった勾配に基づくオンライン学習アルゴリズムを用いてパラメタ推定を行ってきた.しかし,対数双線形言語モデルと勾配に基づくパラメタ推定法の組み合わせは,解の収束性や再現性といった観点で,必ずしも適切な選択とは言えない.本稿では,より信頼性の高い単語分散表現を獲得する枠組みを構築することを目的として,対数双線形言語モデルが持つ性質に対応したパラメタ推定法を提案する.
著者
福地 佑介 俵 直弘 小川 哲司 小林 哲則
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012, no.8, pp.1-6, 2012-07-12

高精度な話者表現とクラスタリングアルゴリズムを統合した新たな話者クラスタリング手法を提案する.従来用いられる話者クラスタリング手法では,データ量が多くなると正確なクラスタリングが困難になるという問題があった.そのような条件下において正確な話者クラスタリングを実現するためには,音響変動に対して頑健なモデルにより話者を表現し,このモデルを用いて各発話を効率的にクラスタリングする手法が必要となる.そこで提案手法では,話者照合の分野で高い精度を達成しているi-vectorを話者の表現として用い,クラスタリング手法として非負値行列分解に基づいた効率的なクラスタリング手法を導入した.本手法の有効性を示すために,CSJデータを用いた話者クラスタリング実験を行い,従来手法と比較して,提案手法が発話データ量の変化に対し頑健に話者クラスタリングが行えることを確認した.We have developed a novel speaker clustering method by integrating highly accurate speaker representation and a clustering algorithm. The conventional method caused significant degradation in clustering accuracy when the number of utterances increased. High-accuracy speaker representation and high-performance clustering method are required to realize robust speaker clustering system against such a condition. For this purpose, we used i-vectors for the speaker representation, which contributes to the realization of high-accuracy speaker verification systems, and efficient non-negative matrix factorization for the clustering algorithm. Experimental results show that the proposed method outperforms the conventional methods, irrespective of the amount of data.
著者
才野 慶二郎 大浦 圭一郎 橘 誠 剣持 秀紀 徳田 恵一
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2012-SLP-90, no.7, pp.1-6, 2012-01-27

ラップのような短時間のうちに音高などの特徴が大きく変動するスタイルの歌い方は,それを適切に表現するための記譜法が確立されておらず,従来のように五線譜基づく合成の仕組みではユーザが直観的にそのスタイルの歌声を再現することが難しかった.本稿では,ラップスタイルの歌唱のための記譜法を定義し,それを用いて HMM 歌声合成の枠組みでラップスタイルの歌声合成を行った.その結果得られた合成音声はラップ特有のグリッサンド技法によるピッチ変動の現象を含むものになっていることが確認された.また,合成時に得られる対数基本周波数系列を素片接続型の歌声合成器に与えてラップスタイルの歌声を合成することも試みた.
著者
篠田 浩一 堀 貴明 堀 智織 篠崎 隆宏
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014-SLP-100, no.2, pp.1-6, 2014-01-24

情報処理学会音声言語情報処理 (SLP) 研究会が 100 回を迎えた.音声認識・理解はこの 20 余年の間に当初は予想もできないほど飛躍的な進歩を遂げた.本研究会は日本における音声認識・理解研究の議論・発表の場としてその進歩に大きく貢献してきた.本稿では,この記念すべき 100 回目の研究会における一連の企画の 1 つとして,この 100 回の歩みを踏まえた上で,今後音声認識・理解研究が進むべき方向性について,4 人の研究者が提言を行う.
著者
徳田恵一 峯松信明 戸田智基 額賀信尾 平井啓之
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.7, pp.1-6, 2014-01-24

情報処理研究会音声言語情報処理研究会 (SIG-SLP) 第 100 回記念シンポジウムにおいて,音声合成研究の流れを俯瞰し,今後の目標・応用や方法論を探ることを目的としたテーマセッションを実施する.本稿は,そこでの発表内容の概要を,登壇者がそれぞれ執筆したものである.
著者
高木 信二 山岸 順一
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2015, no.2, pp.1-6, 2015-02-20

近年,Deep Neural Network (DNN) を用いた手法が様々な分野で高い性能を示しており,統計的音声合成においても DNN を用いた手法が注目を集め,盛んに研究されている.従来,統計的音声合成システムでは音声特徴量の 1 つであるスペクトルは,低次元のスペクトルパラメータ (例えば,メルケプストラムや LSP) によって表現され,隠れマルコフモデル (Hidden Markov Model; HMM) や DNN によってモデル化される.本論文では,振幅スペクトルの微細な特徴を捉えるため,DNN の枠組みを用いて振幅スペクトルを直接モデル化することを検討する.本モデル化手法では,スペクトルパラメータ抽出器である Deep Auto-encoder と音響モデルのための DNN を連結し,テキストから得られた言語特徴量から振幅スペクトルを直接合成する巨大な DNN を構築する.分析再合成実験による Deep Auto-encoder を用いて抽出された低次元特徴量の評価,及び,テキスト音声合成実験による提案スペクトルモデリングの評価を行った.
著者
チョウ イ 峯松 信明 齋藤 大輔
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.19, pp.1-6, 2015-11-25

論文では,データが限られた話者に対する音声合成の質の向上を目的とした,多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成モデルを提案する.提案モデルは,話者非依存のネットワーク (SIN) と話者依存のネットワーク (SDN) で構成されており,SIN は複数話者のデータで学習され,SDN はターゲット話者のデータで学習される.さらに,性別コードと話者コード,i-vector を導入することで,SIN 内部において,話者の識別性をより高めることが期待される.データ数が限られたデータベースを用いた音声合成実験により,提案法は,多層ニューラルネットワークと多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成と比較して,合成音声の品質の向上を確認することができた.さらに,提案した複数話者モデルに話者適応を導入可能であり,実験的に新話者に対する音声合成の自然性と話者性を向上することができた.
著者
福増 康佑 松浦 愛美 江口 浩二
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2011-SLP-86, no.4, pp.1-7, 2011-05-09

トピックモデルは大規模なテキストデータコレクションの解析に広く使用されているアプローチである.最近,Wikipediaを典型とする並列または比較可能な多言語データにおいて潜在トピックを発見する多言語トピックモデルが研究されている.また,元々は内部構造を持つ文書を対象として開発されたトピックモデルのうち,多言語の文書にも適用可能なものがある.しかしながら,現在まで多言語トピックモデルの比較評価を行った報告は我々の知る限りない.我々は多言語文書データに適用可能ないくつかのトピックモデルの性能を,テストセット対数尤度,トピック割り当てのヒストグラム,そして言語横断ストーリーリンク検出タスクに着目して比較評価した.実験により,これまで多言語に関連した研究に用いられてこなかったトピックモデルのいくつかが,従来研究で用いられた多言語トピックモデルより優れていることを示した.