著者
北条 伸克 井島 勇祐 杉山 弘晃 宮崎 昇 川西 隆仁 柏野 邦夫
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.2, pp.A-J81_1-17, 2020-03-01 (Released:2020-03-01)
参考文献数
46

This paper aims at improving naturalness of synthesized speech generated by a text-to-speech (TTS) systemwithin a spoken dialogue system with respect to “how natural the system’s intention is perceived via the synthesizedspeech”. We call this measure “illocutionary act naturalness” in this paper. To achieve this aim, we propose toutilize dialogue-act (DA) information as an auxiliary feature for a deep neural network (DNN)-based speech synthesissystem. First, we construct a speech database with DA tags. Second, we build the proposed DNN-based speechsynthesis system based on the database. Then, we evaluate the proposed method by comparing its performance withtwo conventional hidden Markov model (HMM)-based speech synthesis systems, namely, the style-mixed modelingmethod and the style adaptation method. The objective evaluation results show that the proposed method overwhelmsthe style-mixed modeling method in the accuracy of reproduction of global prosodic characteristics of dialogue-acts.They also reveal that the proposed method overwhelms the style adaptation method in the accuracy of reproduction of sentence final tone characteristics of dialogue-acts. The subjective evaluation results also show that the proposed method improves the illocutionary act naturalness compared with the two conventional methods.
著者
川西 隆仁
出版者
一般社団法人 情報科学技術協会
雑誌
情報の科学と技術 (ISSN:09133801)
巻号頁・発行日
vol.69, no.5, pp.189-193, 2019-05-01 (Released:2019-05-01)

音響指紋技術とは,音響信号に対して,それが既知の音響信号の一部と同一かどうか,を判定する技術である。音響指紋は音響信号固有の特徴であり,音響指紋データベースと照合することによってどの音響信号のどの部分かを特定することができる。音響指紋による照合は,周辺雑音やマイク・スピーカー特性の変化等に頑健であることが要求され,また大量の楽曲データベースからもリアルタイムに検索できる高速性が必要である。本記事では,音楽の権利処理や違法投稿動画の検知などのデジタルメディアコンテンツ管理での音響指紋技術の適用事例を幅広く紹介し,音響指紋技術の1つであるロバストメディア探索技術を解説する。
著者
村田 眞哉 永野 秀尚 川西 隆仁 平松 薫 柏野 邦夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.114, no.521, pp.245-249, 2015-03-12

本論文では特定物体が映る画像をクエリとして,映像中からその特定物体を探索するタスクに対する我々の探索法を説明する.その際画像クエリ内の特定物体の領域を示す注目領域情報(region-of-interest, ROI)も同時に入力されることを想定し,その効果的な使用法を提案する.提案法は検索結果のリランキングになっており,ROI内の画像特徴のみを使用した検索結果ランキングの上位K件を,ROI外の特徴でリランキングする.これにより特定物体の背景情報(ROI外の特徴)によるトピックドリフトをある程度防ぐことができ,背景情報を特定物体の情報と同時に使用する従来法と比べて探索精度の改善が期待できる.実際、TRECVIDのインスタンスサーチタスクのデータセットを使用した実験により、提案法の探索精度が従来法の探索精度より高いことを確認した。