著者
岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 = The transactions of the Institute of Electronics, Information and Communication Engineers (ISSN:09151923)
巻号頁・発行日
vol.76, no.5, pp.921-931, 1993-05-25
被引用文献数
9

本論文は文スポッテングに基づく不特定話者を対象とした連続音声認識系を提案する.系は,(1)3連続音素片標準パターンの作成,(2)音素片のネットワークによる文集合の記述,(3)「部分整合法」と「ベクトル連続DP」による文スポッティングの三つの部分からなる.OPEN話者10名が各人11文,計110文(平均単語分岐数は4.1,単語数113のタスク)を発声した文スポッティング認識実験で,文認識率76.4%(文中の単語認識率94.5%)を得ている.この系は3連続音素片標準パターンを492種類のバランス単語セットのみで作り,連続音声による学習を行っていない.系は波形分析から文スポッティング出力まで完全にフレーム同期となっている.
著者
岡 隆一 西村 拓一 張 建新 伊原 正典
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.86, no.6, pp.764-775, 2003-06-01
被引用文献数
21

語彙に依存しない音声の検索方式を二つ取り上げ,それらの性能を比較する.検索方式の二つとは,検索対象の音声データベースと音声クエリー波形の双方について,各フレームの表現が分析フレーム特徴そのものとしてそれを用いるものと,フレーム特徴から音素々に変換したものを用いるもの,である.フレーム系列表現された検索対象の音声データベースと音声クエリーとの間では連続DPによるスポッティング処理が適用される.連続DP値のローカルピークを検出し,それの抽出する音声データベース中の重なりのない音声区間を検索出力とする.日常会話の発話音声を検索対象者音声データとし,音声クエリーによる検索実験を行った.より高い検索性能を与える方式は各フレーム特徴を音素記号に変換した方式であることが明らかになった.
著者
矢口 勇一 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.2005, no.69, pp.135-140, 2005-07-16

本稿の目的は,「フレームワイズな音素識別ラベルを用いた音声検索」の方式を歌声データ検索に適用し,その有用性を調べることである.すなわち,フレームワイズに音素ラベル化された歌声データを検索対照データとし,クエリーとしての歌声データを検索対象データと同様に処理した後,クエリー列を用いてデータベースから連続DPによってスポッティング認識することで類似した部分区間の検索を行い,抽出された区間を含む楽曲を検索するものである.楽曲データベース全体から歌声クエリーを用いた楽曲検索率は,4小節分のクエリーで78\%であった.また、音声クエリーとの検索率の違いも本稿では述べる.Both song wave data and a query song wave data are transformed into phoneme sequences by frame-wize labeling of each frame feature. Applying a spotting algorithm called Continuous Dynamic Programming to these phoneme sequences, we can detect a set of similar parts in the song database each of which is similar to a query song wave. Song retrieval rate hits 78\ in 4 clauses from whole databases. Additionaly, difference of each query from song wave data and speech wave data remarked in this paper.
著者
後藤 真孝 橋口 博樹 西村 拓一 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2002, no.14, pp.25-32, 2002-02-15
被引用文献数
14

本稿では,共通利用の自由,学術利用の自由が確保されたRWC 研究用音楽データベースの,制作方針と構成について述べる.他の研究分野では,以前から共通データベースの必要性・意義が認識されて,多様なデータベースを構築する努力がなされてきたが,音楽情報処理の分野では,従来,共通楽曲データベースは存在していなかった.そこで我々は既に,「ポピュラー音楽データベース」(100 曲)と「著作権切れ音楽データベース」(15 曲)の二つを構築してきた.本稿では,さらに,「クラシック音楽データベース」(50 曲)と「ジャズ音楽データベース」(50 曲)の二つを構築したことを報告する.本データベースにより,音楽情報処理の研究分野がさらに発展していくことを期待したい.This paper describes the design policy and overview of RWC music database that gives researchers freedom of common use and research use.Various commonly available databases have been built in other research ?elds because of the importance and signi ?cance of those databases.In the ?eld of musical information processing, however,there has not been any commonly available music database.We have therefore built two databases,"Popular Music Database "(100 pieces)and "Royalty-Free Music Database "(15 pieces).This paper reports that we built two more databases,"Classical Music Database "(50 pieces)and "Jazz Music Database "(50 pieces).We hope that these databases will encourage further advance in musical information processing research.
著者
西村 拓一 古川 清 向井 理朗 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解
巻号頁・発行日
vol.97, no.40, pp.183-190, 1997-05-15

すでに提案されているRIFCDPは,2つの時系列データ間の任意の類似区間を検出できるため,時系列パターン検索に有用である.しかし,RIFCDPは、計算量とメモリ量が大きいという問題点がある.そこで,過去に溯るに従って指数関数的に重みを減少させてマッチングをとることにより,計算量とメモリ量を軽減し,ほぼ類似の機能をもつ重み減衰型RIFCDPを提案する.また,ジェスチャー動画像を用いて本手法の有効性を示す。
著者
岡 隆一 西村 拓一 伊原 正典 張 建新 赤坂 貴志
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声 (ISSN:09135685)
巻号頁・発行日
vol.101, no.155, pp.29-35, 2001-06-21
被引用文献数
1

音声やテキストの検索方式を音素記号の系列表現に基づいて構成することを提案する。検索対象のデータである音声波形の各分析フレーム特徴は音素記号に変換される。検索対象のテキストはその読みをひらかなで記述され、さらに音素系列へと展開される。このとき、この各音素表記については平均継続時間長を前もって定めておき、各音素記号について平均時間長のフレーム区間に同一音素記号を配置し音素記号系列とする。クエリーを音声とする場合、このクエリー音声をフレーム単位に音素認識を実行する。音素系列表現の検索対象の音声やテキストと、クエリー音声の音素記号列との間では連続DPによるスポッテイングを行い、データベース中の一致する部分を検索結果とする。
著者
橋口 博樹 西村 拓一 赤坂 貴志 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.100, no.443, pp.79-86, 2000-11-10
被引用文献数
3

近年, 多量の音楽ディジタルデータを個人が所有するようになり, 楽曲の検索ニーズが高まっている.これに伴い, 著者らは鼻歌をクエリーとして, 主旋律に基づいて楽曲信号から直接検索するシステムを開発した.この検索は, mp-CDPと呼ばれるマッチング手法により実現されている.本稿では, 歌詞のある鼻歌を想定し, 音素認識に基づく歌詞検索機能も導入する.このとき, 通常行なわれている音声認識の技術では, 楽曲のように激しく音程が変化するという状況を想定していないため, 歌詞の検索は困難であると考えられる.そこで, mp-CDPがたどった主旋律情報を利用して, 歌詞検索に向いた音素認識法を考え, 両者の統合システムを提案する.
著者
高橋 裕信 新田 義貴 遠藤 隆 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション
巻号頁・発行日
vol.97, no.330, pp.41-47, 1997-10-17

本報告ではテキストを時系列データと考える大規模なテキストデータベースを対象として, 単語を空間に配置し, 空間の距離を利用した文章の検索方式を提案する. まず, 形態素解析によって分節した単語をノードとして, 単語bigramの作るネットワークを構築する. 次にこのネットワークのノードを有限次元の空間中に, ノード群のクラスタリングを伴なう配置問題を考える. この配置問題は, 時系列方向での近傍共起性から, ノード間の距離を定義し, 有限の小さい次元の空間で効率よく分類 (クラスタリング) するために, 最適化関数を導入した非線形化した手法で解かれている. 本手法を新聞データベースのリアルタイム検索に適用した実験結果について述べる.
著者
関本 信博 西村 拓一 高橋 裕信 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.5, pp.747-757, 2001-05-01
被引用文献数
8

動画像や音声などの大規模な時系列データベースの中から、逐次入力される時系列クエリーと類似した時系列区間を検出する方式、「Rutic法」を提案する。従来、逐次入力される時系列クエリーを扱う方式としてRIFCDPやIPMがあったが、これらは比較的計算量が多く、検索対象のデータベースが大きくなった場合のリアルタイム検索に不向きであった。本方式は逐次入力される時系列クエリーに対してフレーム入力ごとに検索出力を可能とする。また、本方式は計算量が少ないため、リアルタイムでのスポッティング検索を実現する。本論文では、Rutic法のアルゴリズムを示し、動画像検索に用いた実験を行い他方式と比較することでその有効性を検証する。
著者
矢口 勇一 大島 万里恵 河合 天士 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.109, no.64, pp.59-64, 2009-05-21
被引用文献数
1

本論文では,Web中にあるからの感性情報の検索を行うために,Web動画中の音声検索システムを用いての類似性を基に感性検索をする方法を提案し,その予備実験を報告する.Web上のビデオデータは極めて多種多様であり,これらの感性的意味を単一の記号によって表現することか不可能に近いといえる.このような時系列データを対象にして,感性語に対応するビデオデータの区間を検索することは,かなり一般化された手法を用いる必要がある.本論文では,フレームワイズな音素識別に基づく音声検索手法をWeb上で実装したAiZoomというシステムを用い,検索したクエリと類似する音声区間を含むビデオデータの部分を抽出し,その類似区間の感性を分類した感性ヒストグラムを用いて,その動画の感性特徴を得る.また,この感性特徴を得た区間のオプティカルフローを調べて,個々の感性特徴に対応する画像特徴が得られるかを検証する.
著者
井関 健太 矢口 勇一 大田 和寛 千葉 将人 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.108, no.363, pp.105-110, 2008-12-11

2次元連続DPアルゴリズムと因子分解法に基づく画像からの3次元形状を効率的に復元するシステムを実現した.2次元連続DPでは画像間の全ピクセルに対する非線形対応のマッチングが可能である.そのため,因子分解法において使用される計測行列を,画像集合の1枚と任意の他の画像とのすべてのピクセル対応から生成する事で,特別な計測機器やカメラパラメータを必要とせず,少数枚数の画像のみから3次元モデルを生成する事が可能である.一方,2DCDPによる計算コストがO(N^4)となり,計算速度とメモリサイズに関する問題がある.本報告ではこれらの問題に対処するために,2DCDP計算の並列化に基づく計算機環境を構築した.また,野外の大きな建築物である城郭を対象にし,効率的に形状復元を行うシステム実装した.大規模画像への3次元形状復元には,部分3次元形状のモザイキングにより実現する.今回構築したシステムが良好に動作する事を実験により示した.
著者
関本 信博 西村 拓一 高橋 裕信 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.99, no.448, pp.181-188, 1999-11-18
被引用文献数
4

動画像や音声などの膨大な時系列データベースの中から、クエリー系列と類似した時系列区間を検出する新方式、「Rutic法」を提案する.従来、任意区間長クエリーを扱う方式としてRIFCDPやIPMがあったが、これらは比較的計算量を必要とし、検索対象のデータベースが大きくなった場合リアルタイム検索には不向きであった.本方式は逐次入力される時系列クエリーに対してフレーム入力毎に検索出力を可能とすることで、セグメンテーションをすることなくデータベースから検索する.本方式は計算量が非常に少ないため、いわゆるリアルタイム-スポッティング検索を実現する.本報告では、Rutic法のアルゴリズムを示し、映像検索に用いた実験を行い他方式と比較することでその有効性を検証する.
著者
西村 拓一 橋口 博樹 関本 信博 張建新 後藤 真孝 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.103, pp.7-14, 2001-10-26
被引用文献数
1

我々は,音楽音響信号のデータベースから,鼻歌のメロディーに類似した区間を見つけ出す音楽検索システムを提案している.本システムでは,個人的に収集したビデオデータからの検索も可能である.しかし,このシステムで用いていた「Model driven path 連続DP」呼ぶマッチング手法は,クエリーの時間軸,データベースの時間軸,音高の軸からなる3次元空間中において,局所類似度を連続DPに基づいて累積し,極大となる累積類似度を計算するもので,その計算量が大きい.そこで,クエリーの始端周辺の音高が正しく推定できたと仮定することで,音高軸を削減した2次元空間における局所類似度の累積に基づく「始端特徴依存連続DP」を提案する.本稿では,ポピュラー音楽20曲について鼻歌検索実験を行い,約7割の検索率を維持しつつ,計算量を従来法の約1/40に低減できることを示す.We have developed a music retrieval method that takes a humming query and finds similar audio intervals (segments) in a music audio database. This method can also address a personally recorded video database containing melodies in its audio track. Our previous retrieving method took too much time to retrieve a segment: for example, a 60-minute database required about 10-minute computation on a personal computer. In this paper, we propose a new high-speed retrieving method, called start frame feature dependent continuous Dynamic Programming, which assumes that the pitch of the interval start point is accurate. Test results show that the proposed method reduces retrieval time to about 1/40 of present methods.