著者
中鹿 亘 滝口 哲也
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2015-SLP-109, no.2, pp.1-6, 2015-11-25

本研究では,音響特徴量・音韻特徴量・話者特徴量の3つを変数とする Three-Way Restricted Boltzmann Machine(3WRBM) を用いて音声モデリングを試みろ.3WRBM はそれぞれの変数のユーナリーポテンシャル,2 変数間のペアワイズポテンシャル,そして 3 変数間の Three-way ポテンシャルを総和したエネルギーに基づく確率密度関数である.本研究では,音響・音韻・話者特徴量の Three-way ポテンシャルを話者正規化学習・話者適応の観点から適切に設計する.一度モデルの学習が終われば 3 変数間の関係性が捉えられ,各特徴量の相互条件付確率を簡単に計算することができる.3WRBM による音声モデリングの性能を評価するために,本稿では声質変換実験と話者認識実験の結果を報告する.話者認識実験における話者特徴量は与えられた音響特徴量から尤度最大下基準により推定することで求めることができ,声質変換は,推定された音韻'情報と,切り替えた話者情報から音響特徴量を推定することで実現される.
著者
相原 龍 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.15, pp.1-6, 2014-12-08

本報告では,非負値行列因子分解 (NMF) を拡張したMultiple Non-negative Matrix Factorization (Multi-NMF) を提案し,任意話者の発話を特定話者の発話へと変換する多対一声質変換を行う.従来,声質変換は入力話者の声質を出力話者のものへ変換する話者変換を目的として広く研究されてきた.声質変換において最も一般的な手法は混合正規分布モデル (GMM) を用いた統計的手法であり,統計的声質変換の枠組みは複数の事前収録話者から構成されるパラレルデータセットを用いて,任意の話者から他の任意の話者への変換へと拡張されている.一方,統計的声質変換に代わる手法として NMF を用いた Exemplar-based 声質変換がある.この手法は,NMF が有する雑音除去機能と,Exemplar-based 手法がもつ変換音声の自然性保持という利点から研究が進められている.しかしながら,NMF 声質変換においては入力話者と出力話者のパラレルデータの存在が前提であり,これまでは任意話者からの声質変換は不可能であった.そこで本報告では,Multi-NMF による,入力話者の発話データを学習せずども変換できる多対一声質変換を提案する.入力話者の発話スペクトルは,事前に学習された複数の話者の発話スペクトルの線形和で表現され,その結合重み係数を用いて目標話者の発話スペクトルヘと変換される.この手法は,多対多声質変換や,話者性を制御可能な声質変換へと応用可能であると考えられる.Voice conversion (VC) is being widely researched in the field of speech processing because of increased interest in using such processing in applications such as personalized Text-To-Speech systems. Statistical approach using Gaussian Mixture Model (GMM) is widely researched in VC and eigen-voice GMM enables one-to-many and many-to-one VC from multiple training data sets. We present in this paper an exemplar-based VC method using Non-negative Matrix Factorization (NMF), which is different from conventional statistical VC. NMF-based VC has advantages of noise robustness and naturalness of converted voice compared to GMM-based VC. However, because NMF-based VC is based on parallel training data of source and target speaker, we cannot covert voice of arbitrary speakers in this framework. In this paper, we propose a many-to-one VC using Multiple Non-negative Matrix Factorization (Multi-NMF). By using Multi-NMF, arbitrary speaker's voice is converted to target speaker's voice without any training data of input speaker's. We assume that this method is flexible because we can adopt it to many-to-many VC or voice quality control.
著者
薛 強 滝口 哲也 有木 康雄
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.37, no.3, pp.IDS-C_1-9, 2022-05-01 (Released:2022-05-01)
参考文献数
16

Generation-base dialogue system tends to produce generic response sentences. In order to improve the diversity of response sentences by the generation-base dialogue system, the response text retrieved by the retrieval-base model can be input to the generation-base model as reference response text, so that the generation-base model can generate highly diverse response sentences. However, the prior works show that the generation-base dialogue system often ignores the reference response text, resulting in the response sentences that is unrelated to the reference response text. In this work, we propose the Dialogue-Filling method, which can utilize 100% of the reference response text by masking the response sentences with a text-filling technique. We built variants of Dialogue-Filling method with DialoGPT model. Experiments on the DailyDialog Dataset demonstrate that our Dialogue-Filling method outperforms the baseline method on the dialogue generation task.
著者
田中 克幸 滝口 哲也 有木 康雄
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.94, no.12, pp.2047-2057, 2011-12-01

本論文では,non-factoid型質問応答技術の一つであるWhy型質問応答を可能とするための技術として,Whyテキストセグメントを識別する識別器の構築方法を提案する.具体的には,テキストセグメント中の文法情報に着目し,機械学習の一つであるSupport Vector Machineにより,それらの特徴パターンを学習することによって,Whyテキストセグメント識別器を構築する.これにより,どのようなドメインのテキストセグメントに対しても,有効に機能するWhyテキストセグメント識別器が構築でき,WebのようなオープンドメインにおいてWhy型質問応答が可能となる.提案手法によるWhyテキストセグメント識別能力の評価のために,Yahoo!知恵袋の回答集合からなる学習データセットをもとに,Whyテキストセグメント識別器を構築して実験を行った結果,F値=0.661,正解率=63.25%の識別性能を有する識別器を構築することができた.これより,従来のWhy型質問応答の問題点であったルール作成に手間が掛かる,識別器がドメインに依存する,ラベル付けされた学習データの入手が困難である,といった問題が改善され,より識別能力の高いWhyテキストセグメント識別が可能となった.
著者
真坂 健太 相原 龍 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.17, pp.1-6, 2014-12-08

声質変換は,入力した音声を音韻情報などは保ったまま,話者性のような特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の代表的な手法である GMM を用いた統計的なアプローチ等は,あくまでクリーン音声を用いた評価を行っており,雑音環境下を考慮した定式化はされていない本研究では,雑音環境下での声質変換など,これまでになかったタスクに対応可能な非負値行列因子分解 (Non-negative Matrix Factorization:NMF) による声質変換を扱う.我々はこれまで,この NMF に基づいた,音声だけではなく唇画像情報を用いたマルチモーダルな声質変換手法を提案してきた.入力話者の特徴量として,音声と画像情報を用いることで変換精度,及びノイズロバスト性の向上を目指した.本論文では,さらに特徴量重みを導入し,新たにコスト関数を提案した.実験結果より,音声情報のみを用いた NMF による声質変換,及び GMM による声質変換よりも提案手法が精度の良い変換が行える事を示す.Voice conversion is a technique for converting specific information in speech while maintaining the other information, such as linguistic information. This technique has been applied to various tasks, for example, there are speaker conversion, emotion conversion and speaking assistance, etc. The GMM-based method is conventional VC method and widely used. In noisy environments, the GMM-based method cannot convert the speech well, because this method cannot model the noisy signal well. Therefore, we have been researched about a noise-robust VC method using Non Negative Matrix Factorization (NMF). In this paper, we propose a multimodal VC method that improves the noise robustness of our previous exemplar-based VC method. Furthermore, we introduce the combination weight between audio and visual features and formulate a new cost function in order to estimate the audio-visual exemplars. By using the joint audio-visual features as source features, the VC performance is improved compared to a previous audio-input exemplar-based VC method. The effectiveness of this method was confirmed by comparing it with that of the conventional audio input NMF-based method and the conventional GMM-based method.
著者
中鹿 亘 滝口 哲也 有木 康雄
出版者
一般社団法人情報処理学会
雑誌
研究報告音声言語情報処理(SLP)
巻号頁・発行日
vol.2014, no.30, pp.1-6, 2014-12-08

質変換は,入力した音声を音韻情報などを保ったまま,話者性に関する特定の情報のみを変換する技術であり,話者変換や感情変換,発話支援など様々なタスクへの応用が期待されている.従来の多くの声質変換手法は,同一発話内容の入出力音声対 (パラレルデータ) を学習時に必要とするが,予め発話内容を決めておく必要がある,音声間のアライメントを取る必要があるなど,学習データを慎重に用意しなければならないという問題がある.また,変換モデルの利用は学習された話者対のみに限定されてしまう.本研究では,パラレルデータを必要としない任意話者声質変換を実現するため,確率モデルの一つである Restricted Boltzmann machine(RBM) を拡張した話者適応型 RBM(Adaptive restricted Boltzmann machine; ARBM) を新たに提案する.適応型 RBM は可視素子層と隠れ素子層からなる二層の確率モデルであり,異なる層の素子間には話者によって変化する結合重みが存在する.本稿では,適応型 RBM を用いた任意話者声質変換に関する評価実験の結果について報告する.Voice conversion (VC) is a technique where only speaker-specific information in source speech is converted while keeping phonological information. The technique can be applied to various tasks such as speaker-identity conversion, emotion conversion and aid to speaking for people with articulation disorders. Most of the existing VC methods rely on parallel data—pairs of speech data from source and target speakers uttering the same articles. However, this approach involves several problems; firstly, the data used for the training is limited to the pre-defined articles. Secondly, the use of the trained model is limited only to the speaker pair used in the training. In this paper, we propose a novel probabilistic model called an adaptive restricted Boltzmann machine (ARBM) for VC between arbitrary speakers without use of parallel data. This model consists of a visible-unit and a hidden-unit layer with the speaker-dependent connection. In this paper, we report our experimental results of arbitrary-speaker VC using our model, an ARBM.
著者
有木 康雄 滝口 哲也
出版者
神戸大学
雑誌
萌芽研究
巻号頁・発行日
2006

本研課題では、スポーツ実況放送の音声認識、及び状況理解を目的としている。状況理解により、スポーツ実況放送のシーンを構造的な単位に分割し、検索のためのメタ情報として利用可能とする。本研究課題では、確率的な枠組みに基づく音声と状況の同時認識、スポーツの進行に伴う状況変化のモデル化、状況に基づく音声認識モテルに特色がある。状況変化モデルは、発話された音声を認識し、発話内容に基づいてイベント推定、及び状況の遷移を行うモデルとなる。ここでは特に発話内容からのイベント推定が重要となる。本研究では、多様な発話を高精度に分類可能なAdaBoostを推定のためのモデルとして用いた。ただし、AdaBoostの出力は確率ではないことから、スコアをsigmoid関数により擬似確率化して用いた。また、AdaBoostを行う際の特徴量として、単語順序を考慮可能な手法であるDTA-Kernel PCAについても研究を行った。状況に基づく音声認識では、状況に応じて変化する言語的・音響的変化に対し、音声認識のモデルを適応する手法について研究を行った。本研究では、それぞれ状況に対応した複数の言語・音響モデルを構築しておき、認識時にモデルを切り替える手法を用いた。状況依存モデルの尤度、及び発話内容からの状況推定の尤度を統合し、最大化することにより、音声認識と状況推定を同時に行った。スポーツ実況放送では、興奮した音声を含む場合があり、興奮音声の認識は通堂の音響モデルでは困難である。研究課題では、さらなる認識性能向上のため、新しい音声認識特徴量、発話スタイルの変動に頑健な音響モデルについても研究を行った。
著者
滝口 哲也
出版者
神戸大学
雑誌
若手研究(B)
巻号頁・発行日
2007

従来の音声認識システムでは,背景雑音や残響の影響を抑圧するために,ユーザはマイクロフォンの前で(マイクスイッチを押してから),音声入力を行なう必要がある.そのような音声認識装置では,音声を使うメリットの一つである"ハンズフリー"なインターフェースを提供しているとは言えない.本研究課題では,マイクスイッチレスな音声認識の実現を目指し,雑音に頑健な音声特徴量抽出法,雑音除去手法,音源方向推定の研究を行い,その有効性を示した.
著者
田中 克幸 滝口 哲也 有木康雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告データベースシステム(DBS) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.6, pp.59-66, 2007-01-25

情報網・Web2.0の発展や放送のデジタル化により、情報整理が困難なメディア、映像、画像、音などの普及が情報の無秩序な肥大化を促進し情報氾濫を招いている。情報量の爆発とプラットフォームの多様化により、ユーザーが欲しい情報が入手できない状況にあり、効率的にユーザーが欲しい情報だけを入手できる環境が必要とされてきている。そこで、本稿では、NetNewsとTV映像のクロスプラットフォームの動画インデキシングと音声インタフェイスによる、検索システムを構築し、ユーザーが快適に動画観覧でき、疑問解決をできるNetTvシステムを構築し、情報の統合によるユーザーの検索軽減を目指した。The advancement of information technology, which includes such developments as Web2.0, on digital TV and Broadband, enables anyone and everyone to access and participate to access any form of media, like documents, movies, images etc via the internet very easily. However, due to information growth and the decentralization of platforms, users are faced with increasing difficulty in finding the information that they really are interested in. Our research enables the searching of news on the internet (NetNews) and TV by speech interface, thereby offering users a better search of cross-platform videos.
著者
田中 克幸 滝口 哲也 有木康雄
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告グループウェアとネットワークサービス(GN) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.6, pp.59-66, 2007-01-25

情報網・Web2.0の発展や放送のデジタル化により、情報整理が困難なメディア、映像、画像、音などの普及が情報の無秩序な肥大化を促進し情報氾濫を招いている。情報量の爆発とプラットフォームの多様化により、ユーザーが欲しい情報が入手できない状況にあり、効率的にユーザーが欲しい情報だけを入手できる環境が必要とされてきている。そこで、本稿では、NetNewsとTV映像のクロスプラットフォームの動画インデキシングと音声インタフェイスによる、検索システムを構築し、ユーザーが快適に動画観覧でき、疑問解決をできるNetTvシステムを構築し、情報の統合によるユーザーの検索軽減を目指した。The advancement of information technology, which includes such developments as Web2.0, on digital TV and Broadband, enables anyone and everyone to access and participate to access any form of media, like documents, movies, images etc via the internet very easily. However, due to information growth and the decentralization of platforms, users are faced with increasing difficulty in finding the information that they really are interested in. Our research enables the searching of news on the internet (NetNews) and TV by speech interface, thereby offering users a better search of cross-platform videos.
著者
滝口 哲也 有木 康雄 佐古 淳
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.103, pp.25-30, 2005-10-21
被引用文献数
1

本研究では、テレビを見ているその場で知らないことや知りたいこと、関心のあることについてテレビに問い合わせる事が可能な「対話型テレビ」の構築を目的としている。提案する対話型テレビは、バックエンド処理部とフロントエンド処理部から構成される。バックエンド処理部では、あらかじめニュース映像、野球、サッカー映像等からコンテンツ解析を行い、メタ情報の抽出を行う。フロントエンド処理部では、ユーザーの意図を抽出するため、ハンズフリー音声認識、ハンドポインティング認識が行われる。本稿では、現在開発を進めているコンテキストアウェアネスに基づく対話型テレビの実装例、及びフロントエンド処理部について述べる。In this paper, we propose a structure and components of a conversational television set (TV) to which we can ask anything on the broadcasted contents and receive the interesting information from the TV. The conversational TV is composed of two types of processing: back-end processing and front-end processing. In the back-end processing, broadcasted contents are analyzed using speech and video recognition techniques and both of the meta data and the structure are extracted. In the front-end processing, human speech and hand action are recognized to understand the user intention. We show some applications, being developed in this conversational TV with multi-modal interactions, such as word explanation, human information retrieval, event retrieval in soccer and baseball video games with contextual awareness.