著者
金子 卓弘 平松 薫 柏野 邦夫
雑誌
研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:21888701)
巻号頁・発行日
vol.2017-CVIM-208, no.36, pp.1-8, 2017-09-08

本稿では生成的属性制御と呼ぶ新しい問題に取り組む.生成的属性制御では,画像の生成または編集を,属性内多様性 (例えば,笑顔属性であれば微笑み,大笑い,にやり笑いなどの様々な笑い方) を直感的に制御しながら行えるようにすることを目指す.これを実現するためには,画像の表現空間があった時に,(1) 個人性と属性が分離され,さらに,属性に対して (2) 高い表現力と (3) 高い操作性が得られていることが必要になる.これらを満たすために,本稿では Conditional Filtered Generative Adversarial Networks (CFGAN) と呼ぶ Conditional GAN (CGAN) の新しい拡張モデルを提案する.CGAN は GAN を条件付き設定に拡張したもので,属性の観測変数を生成器と識別器の入力に組み込むことで,表現空間内で個人性と属性を分離することを可能にしている.一方で,表現力と操作性は観測変数に強く制約されており,例えば,観測変数が属性の有無を表すバイナリであればオン ・ オフの制御しかできなかった.これに対して,CFGAN では新たにフィルタリング構造と多次元の隠れ変数を導入し,属性の観測変数の値に応じて隠れ変数のフィルタリングを行う.これにより属性は多次元的に表現されるため表現力を高めることが可能であり,さらに,フィルタリング構造と隠れ変数の分布形状を工夫することで様々な制御を実現することが可能である.実験では,CFGAN を MNIST,CUB,CelebA データセットに適用し,様々なデータに対して属性内多様性を制御しながら画像を生成または編集できることを示す.さらに,本手法を属性転写と属性に基づく画像検索の二つのタスクに適用し,本手法が属性の表現学習にも有用であることを示す.
著者
金子 卓弘 亀岡 弘和 北条 伸克 井島 勇祐 平松 薫 柏野 邦夫
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.20, pp.1-6, 2016-12-13

統計的パラメトリック音声合成は,その柔軟性と省メモリ性などの利点により広く使われている. しかし,この手法で生成した音声パラメータは,学習の際の統計的平均化によって過剰な平滑化が生じ,合成した音声は肉声感が失われる傾向がある. この問題に対し,本稿では,敵対的学習を用いて取得したポストフイルタを用いることにより,失われた肉声感を再構成する手法を提案する.従来研究でも,系列内変動や変調スペクトルに着目して肉声感を取り戻そうという試みはあるが,これらは経験的発見に基づくものであり,合成音声と自然音声の差異の一部に対処しているに過ぎない. これに対して,提案手法は敵対的学習を用いながら,合成音声と自然音声とのギャップを埋めるようなポストフイルタをデータから直接学習しようとするものである. これにより,合成音声の音声特徴量を真の音声の音声特徴量の分布に近づくように変換するポストフイルタを得ることができる.実験では,提案手法を用いることにより,合成音声から分析合成音声に匹敵する音声が得られることを示す.