著者
武田 一馬 川西 康友 平山 高嗣 出口 大輔 井手 一郎 村瀬 洋 柏野 邦夫
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 A (ISSN:09135707)
巻号頁・発行日
vol.J106-A, no.3, pp.58-69, 2023-03-01

本研究の目的は,多数の人物の視行動を分析することで,観衆が注目している複数の注目対象の位置の推定と,それらが注目されている度合(被注目度)を定量化することである.被注目度を推定する典型的な方法として,観衆の視線を推定し,その視線と物体の位置を対応付けることで,被注目度を推定することが考えられる.その場合,機器を設置するコストや手間をふまえると,観衆全体を一度に撮影した映像から視線を推定することが望ましい.しかし,このようにして撮影した映像から切り出した顔画像の解像度は観客ごとに撮影した場合と比べて小さく,視線推定精度は低い.そこで本論文では,低解像度でも比較的推定しやすい顔向きの時系列データを入力とし,これらを時空間的に統合することで,観衆が複数の注目対象を注視する状況下で注目対象の位置と被注目度を同時に推定する手法を提案する.提案手法の有効性を確認するため,アイドルのライブ公演を模したデータセットを構築し,注目対象の位置及び被注目度の推定精度を評価した.実験結果から,提案手法により比較手法と比べて被注目度の推定精度が向上することを確認した.
著者
柏野 邦夫 スミス ガビン 村瀬 洋
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.82, no.9, pp.1365-1373, 1999-09-25
参考文献数
12
被引用文献数
70

放送など長時間の音響信号中から,特定のテーマ曲やCMなど,目的音響信号の有無及び時刻を高速に探索する方法を提案する.従来の,スペクトルや波形のずらし照合に基づく探索では,長時間の音響信号を探索対象とした場合,計算量が膨大となるという問題があった.これに対し本論文で提案する方法では,スペクトル特徴のヒストグラムに基づいて探索を行うことにより,大幅に計算時間を短縮することができる.例えば,ワークステーションを用いた実験では,音響信号からあらかじめスペクトル特徴を抽出しておいた場合,6時間の音響信号から目的音響信号(15秒間)を所要約2.3秒で正しく探索できることがわかった.また,白色ガウス雑音の重畳に対しては,SN比20dBまで頑健であることがわかった.
著者
永野 秀尚 柏野 邦夫 村瀬 洋
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.82, pp.67-72, 2001-08-04
被引用文献数
2

本稿では、音や映像のメディア探索のための曖昧文字列照合法を提案し その類似音楽検索への適用を検討する. ここで類似音楽検索とは多重奏音楽の音響信号を検索キーとして 長時間の音楽から検索キーに類似する部分を探索することである. この探索においては 信号間の類似度と信号の伸縮を考慮しなければならないことと 探索に時間がかかることが問題である. そこで 符号間の類似度を表現する類似度行列を導入し これに基づき符号系列化された信号間で 伸縮を考慮した探索を 類似度行列のスパース性により高速に行う曖昧文字列照合法を提案し この類似音楽検索に適用した. 30曲の類似音楽サンプル用いた予備実験では 曖昧文字列照合法により 従来のDPマッチングを用いたずらし照合法と比べ 約4倍高速な探索が行えた.We propose a Similarity-Based String Matching method for media information retrievaland its application to similar-music retrieval.The media information retrieval is here defined as detecting all the segments that are similar to a specified audio or video segments on a long audio or video stream. In such a task, we must consider similarities between features, deal with temporal stretching or shrinking, and also realize quick searching. Thus, the proposed method introduces a similarity matrix with a similarity enhancement technique and the DP matching method with a newly developed acceleration technique. Experiments using 30 similar-music pieces show that the proposed method can retrieve similar music fragments approximately four times faster than the conventional DP matching method, maintaining the same accuracy.
著者
永野 秀尚 柏野 邦夫 村瀬 洋
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.86, no.11, pp.1657-1667, 2003-11-01
被引用文献数
1

本論文では,多重奏音響信号をクエリーとして多重奏音響信号から類似する音楽を探索する類似音楽探索法とその高速化手法を提案する.本類似音楽探索においては多重奏音響の類似性に基づいた探索を高速に行う必要がある.そこで,まず,多重奏において同時に発生する複数の音の有無に着目した2値多重音響特徴ベクトルを提案する.本特徴は多重奏音響信号の類似性に基づいた高速探索に適している.そして更に,本特徴を用いた探索における高速化手法を導入する.本手法は類似度行列のスパース化により探索空間を制限し,より高速な探索を行う.216曲の実験用音楽データベースを用いた探索実験では,例えば,楽曲単位の探索において,クエリーの長さが平均19秒のとき,スペクトル特徴を用いた場合に62.5%であった精度が,提案の2値多重音響特徴ベクトルを用いることにより89.3%にまで向上した.また,本高速化手法においては,精度をほとんど損なわずに,DP照合を用いたずらし照合法に比べ約1.6倍から18倍の高速化を達成した.
著者
柏野 邦夫
出版者
一般社団法人 日本音響学会
雑誌
日本音響学会誌 (ISSN:03694232)
巻号頁・発行日
vol.66, no.2, pp.71-76, 2010-02-01 (Released:2017-06-02)
参考文献数
27
被引用文献数
2
著者
大石康智 亀岡 弘和 持橋 大地 永野 秀尚 柏野 邦夫
出版者
情報処理学会
雑誌
研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2010, no.9, pp.1-8, 2010-07-21
被引用文献数
1

本報告では,歌声のF0動特性をノート単位で編集し,歌い方を多様に変形できる歌声合成インタフェースの実現を目指し,その動特性のモデリングとモデルパラメータ推定に関する新しい解法を提案する.F0動特性は線形2次系に従うと仮定し,その生成過程を完全に確率モデルとして表現する.そして,EM法に基づいて,効率的なモデルパラメータ最適化アルゴリズムを導出する.最終的に,推定された2次系の振動を制御するパラメータと各ノートの音高を表すパラメータを個別に操作し,生成されたF0系列に基づいて歌声音響信号を変形して合成する"Vocal Dynamics Controller"を実装する.We present a novel statistical model for dynamics of various singing behaviors, such as vibrato and overshoot, in a fundamental frequency (F0) sequence and develop a note-by-note editing and synthesizing interface for F0 dynamics. We develop a complete stochastic representation of the F0 dynamics based on a second-order linear system and propose a complete, efficient scheme for parameter estimation using the Expectation-Maximization (EM) algorithm. Finally, we synthesize the singing voice using the F0 sequence generated by manipulating model parameters individually which control the oscillation based on the second-order system and the pitch of each note.
著者
北条 伸克 井島 勇祐 杉山 弘晃 宮崎 昇 川西 隆仁 柏野 邦夫
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.35, no.2, pp.A-J81_1-17, 2020-03-01 (Released:2020-03-01)
参考文献数
46

This paper aims at improving naturalness of synthesized speech generated by a text-to-speech (TTS) systemwithin a spoken dialogue system with respect to “how natural the system’s intention is perceived via the synthesizedspeech”. We call this measure “illocutionary act naturalness” in this paper. To achieve this aim, we propose toutilize dialogue-act (DA) information as an auxiliary feature for a deep neural network (DNN)-based speech synthesissystem. First, we construct a speech database with DA tags. Second, we build the proposed DNN-based speechsynthesis system based on the database. Then, we evaluate the proposed method by comparing its performance withtwo conventional hidden Markov model (HMM)-based speech synthesis systems, namely, the style-mixed modelingmethod and the style adaptation method. The objective evaluation results show that the proposed method overwhelmsthe style-mixed modeling method in the accuracy of reproduction of global prosodic characteristics of dialogue-acts.They also reveal that the proposed method overwhelms the style adaptation method in the accuracy of reproduction of sentence final tone characteristics of dialogue-acts. The subjective evaluation results also show that the proposed method improves the illocutionary act naturalness compared with the two conventional methods.
著者
黒住 隆行 柏野 邦夫 村瀬 洋
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.8, pp.1817-1825, 2001-08-01
参考文献数
18
被引用文献数
10

既知の音や映像(目的信号)が長時間の音や映像(蓄積信号)のどの時点にあるか探索する問題(時系列探索)において,高速かつ高精度に探索する手法を提案する.時系列探索における問題点は,音や映像の特徴にビデオのダビングや各種圧縮方式などによるひずみが発生することである.そのようなひずみが激しく起こると,探索精度が低下する.本論文では,そのようなひずみを吸収するための手法として,確率ディザボーティングを提案する.これは,ひずみの確率分布を学習により求め,その確率分布をヒストグラム上に表現するものである.ビデオのダビングや圧縮が起こった映像を探索する実験では,いずれのひずみにおいても探索精度の改善が見られた.例えば,ダビングを4回行った1時間の蓄積信号から5秒の目的信号を探索する場合では,従来法より探索精度が4.5%改善し,本手法の有効性が確認された.本手法により,様々なひずみに対して頑健なマルチメディア探索が可能になると考えられる.
著者
柏野 邦夫 村瀬 洋
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.96, no.540, pp.21-26, 1997-02-21
被引用文献数
3

同時に複数の認識対象が混在する音の認識では,音源同定処理が必要である.本稿では,音楽の生演奏など,実環境における音の多様性や変動にも対処できる音源分離同定を行うことを目的として,適応型テンプレートを用いた音源同定処理を提案する.さらに,この処理を応用して,同時に複数の音を認識対象とするシステムの代表例であるアンサンブル演奏の認識システムを構築する.構築したシステムに対し,自然楽器音の単音によるベンチマークテスト,およびアンサンブルの生演奏を用いた音楽認識テストを行った結果,単純なマッチトフィルタによる音源同定処理に比べ,提案手法が有効であることが確かめられた.
著者
井上 卓弥 平山 高嗣 高橋 友和 川西 康友 出口 大輔 井手 一郎 村瀬 洋 黒住 隆行 柏野 邦夫
出版者
一般社団法人 電気学会
雑誌
電気学会論文誌C(電子・情報・システム部門誌) (ISSN:03854221)
巻号頁・発行日
vol.138, no.11, pp.1399-1409, 2018-11-01 (Released:2018-11-01)
参考文献数
23
被引用文献数
1

Recently, the spread of Web cameras has facilitated video-conferencing as a means of communication. Since a Web camera is usually located outside the display while the user looks at his/her partner in the display, there is a problem that they cannot establish eye contact with each other. Various methods have been proposed to solve this problem, but most of them required specific sensors, and robust and accurate feature extraction for various appearances to densely associate facial feature points of the images. In this paper, we propose a method that transforms the eye areas to synthesize eye contact using a single camera that is commonly implemented in laptop computers. Concretely, we implemented a system which transforms the user's eye areas in an image to his/her eye image with a straight gaze to the camera only when the user's gaze falls in a range that the partner would perceive eye contact. We then confirmed the effectiveness of the proposed method in terms of accuracy of the gaze area classification, subjective evaluation score for eye contact, and accuracy of eye contact through experiments.
著者
金子 卓弘 平松 薫 柏野 邦夫
雑誌
研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:21888701)
巻号頁・発行日
vol.2017-CVIM-208, no.36, pp.1-8, 2017-09-08

本稿では生成的属性制御と呼ぶ新しい問題に取り組む.生成的属性制御では,画像の生成または編集を,属性内多様性 (例えば,笑顔属性であれば微笑み,大笑い,にやり笑いなどの様々な笑い方) を直感的に制御しながら行えるようにすることを目指す.これを実現するためには,画像の表現空間があった時に,(1) 個人性と属性が分離され,さらに,属性に対して (2) 高い表現力と (3) 高い操作性が得られていることが必要になる.これらを満たすために,本稿では Conditional Filtered Generative Adversarial Networks (CFGAN) と呼ぶ Conditional GAN (CGAN) の新しい拡張モデルを提案する.CGAN は GAN を条件付き設定に拡張したもので,属性の観測変数を生成器と識別器の入力に組み込むことで,表現空間内で個人性と属性を分離することを可能にしている.一方で,表現力と操作性は観測変数に強く制約されており,例えば,観測変数が属性の有無を表すバイナリであればオン ・ オフの制御しかできなかった.これに対して,CFGAN では新たにフィルタリング構造と多次元の隠れ変数を導入し,属性の観測変数の値に応じて隠れ変数のフィルタリングを行う.これにより属性は多次元的に表現されるため表現力を高めることが可能であり,さらに,フィルタリング構造と隠れ変数の分布形状を工夫することで様々な制御を実現することが可能である.実験では,CFGAN を MNIST,CUB,CelebA データセットに適用し,様々なデータに対して属性内多様性を制御しながら画像を生成または編集できることを示す.さらに,本手法を属性転写と属性に基づく画像検索の二つのタスクに適用し,本手法が属性の表現学習にも有用であることを示す.
著者
金子 卓弘 亀岡 弘和 北条 伸克 井島 勇祐 平松 薫 柏野 邦夫
雑誌
研究報告音声言語情報処理(SLP) (ISSN:21888663)
巻号頁・発行日
vol.2016-SLP-114, no.20, pp.1-6, 2016-12-13

統計的パラメトリック音声合成は,その柔軟性と省メモリ性などの利点により広く使われている. しかし,この手法で生成した音声パラメータは,学習の際の統計的平均化によって過剰な平滑化が生じ,合成した音声は肉声感が失われる傾向がある. この問題に対し,本稿では,敵対的学習を用いて取得したポストフイルタを用いることにより,失われた肉声感を再構成する手法を提案する.従来研究でも,系列内変動や変調スペクトルに着目して肉声感を取り戻そうという試みはあるが,これらは経験的発見に基づくものであり,合成音声と自然音声の差異の一部に対処しているに過ぎない. これに対して,提案手法は敵対的学習を用いながら,合成音声と自然音声とのギャップを埋めるようなポストフイルタをデータから直接学習しようとするものである. これにより,合成音声の音声特徴量を真の音声の音声特徴量の分布に近づくように変換するポストフイルタを得ることができる.実験では,提案手法を用いることにより,合成音声から分析合成音声に匹敵する音声が得られることを示す.
著者
村田 眞哉 永野 秀尚 川西 隆仁 平松 薫 柏野 邦夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.114, no.521, pp.245-249, 2015-03-12

本論文では特定物体が映る画像をクエリとして,映像中からその特定物体を探索するタスクに対する我々の探索法を説明する.その際画像クエリ内の特定物体の領域を示す注目領域情報(region-of-interest, ROI)も同時に入力されることを想定し,その効果的な使用法を提案する.提案法は検索結果のリランキングになっており,ROI内の画像特徴のみを使用した検索結果ランキングの上位K件を,ROI外の特徴でリランキングする.これにより特定物体の背景情報(ROI外の特徴)によるトピックドリフトをある程度防ぐことができ,背景情報を特定物体の情報と同時に使用する従来法と比べて探索精度の改善が期待できる.実際、TRECVIDのインスタンスサーチタスクのデータセットを使用した実験により、提案法の探索精度が従来法の探索精度より高いことを確認した。
著者
柏野 邦夫 木村 昭悟 黒住 隆行
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
巻号頁・発行日
vol.105, no.116, pp.13-17, 2005-06-09

長時間にわたって蓄積された映像信号や音響信号の特徴時系列において, 既知の映像信号や音響信号の出現箇所を高速に探索する手法を提案する.このような手法として, これまでに, 時系列アクティブ探索法が提案されている.時系列アクティブ探索法では, 類似度のもつ局所的な制約に基づいて枝刈りを行っていた.本稿で提案する手法は, 類似度の局所的な性質と大域的な性質の双方を枝刈りに利用することで高速化を図る.また, 類似度(距離)の定義にかかわらず全探索と同一の探索結果(つまり時系列アクティブ探索法と同一の探索結果)が得られるという特徴がある.映像探索を題材として実験を行った結果, 時系列アクティブ探索法に比べ, 照合計算回数が約28%削減されるとともに, 探索の所要時間も削減された.
著者
柏野 邦夫 中臺 一博 木下 智義 田中 英彦
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.79, no.11, pp.1751-1761, 1996-11-25
被引用文献数
70

音楽演奏の音響信号を対象として演奏情報を認識する試みとしては,従来自動採譜の研究が行われているが,複数種類の楽器音を含む音楽演奏を対象とする場合には,認識処理の有効性は極めて限られていた.そこで本論文では,複数種類の楽器音を含む音楽演奏の認識を音楽情景分析の問題としてとらえ,その解決を図る.ここで音楽情景分析とは,音楽演奏の音響信号から,単音や和音などの音楽演奏情報を記号表現として抽出することを指す.本論文ではまず,音楽情景分析を実現する上では情報統合の技術が不可欠であるとの認識から,ベイジアンネットワークによる情報統合の機構を備えた音楽情景分析の処理モデルOPTIMAを提案する.次に,特に単音の認識に的を絞って,提案する情報統合機構の有効性を示す.
著者
大石康智 亀岡弘和 持橋大地 柏野邦夫
出版者
一般社団法人情報処理学会
雑誌
研究報告音楽情報科学(MUS)
巻号頁・発行日
vol.2013, no.22, pp.1-8, 2013-08-24

歌声の声の大きさの変化 (音量軌跡と呼ぶ) を楽譜と関連付けて特徴づけ,未知の楽譜に対して,その音量軌跡を予測できる生成過程モデルを提案する.数名の歌唱者による同一曲の歌声の音量軌跡を観察した結果,歌唱者ごとにその動特性は特有であり,楽譜や歌唱表現に起因する成分が含まれることがわかった.また,同一歌唱者による数曲の歌声の音量軌跡を観察したところ,歌唱者はいくつかの動特性パターンを所有し,楽譜が与えられた下で,パターンを使い分けて歌唱すると考えた.これらを踏まえて,楽譜における様々なコンテキスト (音符の音高や音長,音符内位置,前後の音符情報など) が与えられた下で,歌唱者が描くであろう音量軌跡を生成するモデルを構築するために,混合ガウス過程を用いる.複数のガウス過程によって音量軌跡の多様な動特性が特徴づけられ,これらの混合モデルによって歌唱者が時々刻々と動特性パターンを使い分ける動作が表現される.評価実験では,単一のガウス過程を用いるより,混合ガウス過程を用いて音量軌跡の動特性を特徴づけた方が,未知の楽譜に対する音量軌跡の予測性能が高いことを示す.また,音符のコンテキストの種類と予測性能の関係について考察する.
著者
中野 允裕 大石 康智 亀岡 弘和 向井 良 柏野 邦夫
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.112, no.111, pp.31-36, 2012-06-22
参考文献数
13

本稿では,隠れマルコフモデルの拡張として,隠れ状態のペアである状態遷移の中のクラスタを抽出する能力を有した新しいモデルについて議論する.提案するモデルでは,状態遷移確率の配列をモンドリアン模様に誘導することによって,複数の系列データから隠れ状態系列を推定すると同時に隠れ状態間のネットワークの中のクラスタを発見することが出来る.提案モデルの応用例として音楽信号に適用した実験を示す.
著者
大石康智 亀岡 弘和 柏野 邦夫 武田 一哉
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.78, pp.89-96, 2008-07-30
被引用文献数
1

歌声の基本周波数 (F0) 軌跡から,歌唱者が意図する旋律概形と歌声の動的変動成分を同時推定する手法を提案する.これまで,旋律概形を表す区分的に一定な階段状の入力信号に、ビブラートやオーバーシュートなどの動的変動因子を表す 2 次系のインパルス応答を畳み込むことによって,F0 軌跡を生成するための制御モデルが提案された.しかし,観測される F0軌跡だけから,それぞれの信号を推定する逆問題は不良設定問題であるため,従来のモデルではこの問題を解くことができなかった.そこで,我々は階段状の拘束をもつ特殊な入力信号を隠れマルコフモデル (HMM) でモデル化し,2 次系を含むシステムの伝達関数を全極モデルで表現することで,Viterbi 学習と線形予測分析 (LPC) 的な解法の反復により,モデルパラメータを効率的に推定するアルゴリズムを提案する.本稿ではその定式化と実装を行い,観測される F0 軌跡から旋律概形と動的変動成分をともに推定できること,さらに推定されたパラメータによって F0 軌跡を生成可能であることを確認する.In this paper, we propose a novel representation of F0 contours that provides a computationally efficient algorithm for automatically estimating the parameters of a F0 control model for singing voices. Although the best known F0 control model, based on a second-order system with a piece-wise constant function as its input, can generate F0 contours of natural singing voices, this model has no means of learning the model parameters from observed F0 contours automatically. Therefore, by modeling the piece-wise constant function by Hidden Markov Models (HMM) and approximating the transfer function of the system by the all-pole model, we estimate model parameters optimally based on iteration of Viterbi training and an LPC-like solver. Our representation is a generative model and can identify both the target musical note sequence and the dynamics of singing behaviors included in the F0 contours. Our experimental results show that the proposed method can separate the dynamics from the target musical note sequence and generate the F0 contours using estimated model parameters.