著者
獅々堀 正幹 小泉 大地 柘植 覚 北 研二
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 (ISSN:09151915)
巻号頁・発行日
vol.87, no.2, pp.154-163, 2004-02-01
被引用文献数
7

検索キーに適した両像をWWW(World Wide Web)から検索するWWW両像検索システムの一つとして,フィードバック情報を格納した両度知識データベースを用いた検索システムを提案する.本システムは既存システムの結果をフィルタリングすることで適切な面謝を優先的に提示するエンドユーザ向けのシステムである.検索キーが画像知識データベースに未登録の場合,既存システムの結果からユーザが選択した正解両度の画像的特微量をフィードバック情報としてデータペー-スに登録する,登録の際,特徴量の類似性を考慮し,代表的な特微量のみを晋録することでデータベースの冗長性を防ぎ,検索キーの類義語も登録することで登録キーワードの帽を広げている.次回の検索の際,このデータベースが検索キーに対する教師データとなるので,教師データにより類似している両度を優先的に提示することができる.従来システムとしてGoogle ImageSearchを用い,130個の検索キーに対する評価実験を行った結果,106個のキーに対して精度が向上し,全体でも11.6%の精度向上が確認できた.また,5〜15枚程度の画像をフィードバックすることで十分な検索精度の向上が得られた.
著者
柘植 覚 獅々堀正幹 北 研二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.20, pp.1-6, 2001-03-05
被引用文献数
4

ベクトル空間モデル(Vector Space Model; VSM)は情報検索における代表的な検索モデルであり,検索対象文書および検索質問を多次元ベクトルで表現するという特徴を持っている.しかし,これらのベクトルは一般にスパースかつ高次元であるため,計算機のメモリによる制限や検索時間の増大などの問題が生じる.また,次元が増加するに連れ,文書中に含まれる不必要な単語がノイズ的な影響を及ぼし検索精度を低下させてしまうという現象も起こってくる.本稿では,Non-negative Matrix Factorization(NMF)を用いたベクトル空間モデルの次元圧縮手法を提案する.NMFは非負行列を2つの非負行列の積に分解する手法であり,分解された非負の2行列は基底行列とその基底のもとでの座標値から成る行列とみなすことができる.基底行列のランクを元の行列のランクより小さくすることにより,次元圧縮が可能となる.NMFは,主成分分析や特異値分解などと異なり,非負制約条件で行列分解を行うため,元の行列を減算を伴わない加算のみの線形結合で表現することができる.これは部分から全体を構成するという我々の直観を反映している.また,NMFは単純な繰り返し演算のみで実行可能であるため,大規模な行列に対して,計算コストや記憶容量の点で他の次元削減手法よりも優れている.MEDLINEコレクションを用いた検索実験を行い,NMFは通常のベクトル空間モデルよりも高い検索性能を示すことができた.The Vector Space Model(VSM) is a conventional information retrieval model, which represents a document collection by a term-by-document matrix. Since term-by-document matrices are usually high-dimensional and sparse, they are susceptible to noise and are also difficult to capture the underlying semantic structure. Additionally, the storage and processing of such matrices places great demands on computing resources. Dimensionality reduction is a way to overcome these problems. Principal Component Analysis(PCA) and Singular Value Decomposition(SVD) are popular techniques for dimensionality reduction based on matrix decomposition, but they contain both positive and negative values in the decomposed matrices. In the work described here, we use non-negative matrix factorization(NMF) for dimensionality reduction of the vector space model. Since decomposed matrices by NMF only contain non-negative values, the original data is represented by only additive, not subtractive, combinations of the basis vectors. This characteristic of parts-based representation is appealing because it reflects the intuitive notion of combining parts to form a whole. Also NMF computation is based on the simple iterative algorithm, it is therefore advantageous for applications involving large matrices. Using MEDLINE collection, we experimentally showed that NMF offers great improvement over the vector space model.
著者
獅々堀正幹 大西 泰代 柘植 覚 北 研二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.48, no.1, pp.300-311, 2007-01-15
被引用文献数
1

近年,楽曲配信サービスの普及により,容易に音楽データをダウンロードして試聴できるようになった.しかし,サーバ側で蓄積している音楽データが膨大になるにつれ,音楽データに対する効率的な検索手法が必要になっている.特にハミングを入力とする検索手法が近年活発に研究されており,音楽特徴量間の類似度計算にDP マッチングやユークリッド距離を用いる手法が主流であった.本論文では,距離尺度としてEarth Mover's Distance(EMD)を用いたハミング検索手法を提案する.EMD は輸送問題における輸送コストの最適解であり,本手法では輸送問題における各供給地が有する資源量を各音符の音長,輸送コストを各音符の出現時間と音高情報から算出することで,リズムと音程との類似度を同じ距離尺度で計り,全体の曲調が類似した曲を検索する.さらに,EMD の計算量が音符数に対して指数関数的に増加することに着目し,検索精度を維持しつつ計算コストを低減可能な音楽特徴量を提案する.約500 曲の音楽データベースに対してハミングデータ40 曲を入力とした評価実験を行った結果,ユークリッド距離を用いる手法より検索結果上位10 位以内に正解データが出現する割合が約30%向上した.また,DP マッチングを用いる手法と比べて,極端に音高の外れた音符を含むハミングデータに対する柔軟性を確認した. 付録:<a href="http://www.ipsj.or.jp/08editt/contents/JNL4801/index.html#28"target="_brank">http://www.ipsj.or.jp/08editt/contents/JNL4801/index.html#28</a>Music retrieval systems are extremely useful for collecting digital music data from on-line music distribution sites. Especially, there is a great need to develop effective techniques for content-based music retrieval systems, which can retrieve by humming query. The main issues in this research is how to decide the similarity of each music features extracted from music data. In order to calculate the similarity, some conventional methods use Euclid distance or DP matching, but it is very hard to solve the problem of the vagueness of humming query. In this paper, we propose a new similar music retrieval method based on humming query using the Earth Mover's Distance as the distance measure. Computing the EMD is based on a solution to the transportation problem, and the EMD is applied as the distance measure on similar image retrieval systems. In addition, we focus that the time complexity of the EMD is exponential worst case toward the number of notes, the improved method to decrease the number of notes in the music feature is also proposed. Experimental results show that the proposed method can improve the retrieval precision of conventional systems.appendices:<a href="http://www.ipsj.or.jp/08editt/contents/JNL4801/index.html#28"target="_brank">http://www.ipsj.or.jp/08editt/contents/JNL4801/index.html#28</a>
著者
好田 勲 柘植 覚 獅々堀正幹 北 研二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2003, no.23, pp.17-22, 2003-03-06
被引用文献数
4

ベクトル空間モデル(Vector Space Model;VSM)は情報検索における代表的な検索モデルであり,検索対象文書および検索質問を多次元ベクトルで表現するう特徴を持っている.しかし,これらのベクトルは一般にスパースかつ高次元であるため,計算機のメモリによる制限や検索時間の増大などの問題が生じる.また,次元が増加するに連れ,文書中に含まれる不必要な索引語がノイズ的な影響を及ぼし検索精度を低下させてしまうという現象も起こってくる.以前,我々はこの問題を解決するため,Non-negative Matrix Factorization(NMF)を用いたVSMの次元圧縮手法を提案した.しかし,メモリの問題がまだ存在する.そこで,本稿では,k-means NMF を用いたVSMの次元圧縮手法を提案する.また,スパースな行列に対し有効な検索手法である検索質問拡張にNMFを用いる手法を提案する.MEDLINEコレクションを用いた検索実験を行った結果,NMFを用いた場合とk-means NMFを用いた場合では,検索精度を劣化することなく計算に必要なメモリを約$1/10$に軽減することができた.また,NMFを用いた検索質問拡張もVSMよりも高い検索精度を示すことができた.The Vector Space Model (VSM) is a conventional information retrieval model, which represents a document collection by a term-by-document matrix. Since term-by-document matrices are usually high-dimensional and sparse, they are susceptible to noise and are also difficult to capture the underlying semantic structure.Additionally, the storage and processing of such matrices places greatdemands on computing resources. Dimensionality reduction is a way toovercome these problems. We proposed non-negative matrix factorization(NMF) for dimensionality reduction of the vector space model.However,this method did not overcome memory problems. Hence, we proposek-means NMF for dimensionality reduction of the vector space model. And,we propose query expansion using NMF in this paper.Using MEDLINE collection, we experimentally showed that k-means NMF offers great improvement over the vector space model.
著者
西川 伸紀 獅々堀正幹 柘植 覚 北 研二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
巻号頁・発行日
vol.48, no.20, pp.28-38, 2007-12-15
参考文献数
15

本研究では映像内の文字情報である字幕に着目した字幕検索システムを開発する.従来,字幕検索は映像内に出現する字幕に対して文字認識を行う手法が主流であった.しかし,この手法では,事前に文字認識を行うための時間コストが必要であり,また,完全な文字認識結果が得られない場合には検索精度が低下するという問題があった.本論文では,上記の問題点を解決した高精度かつ高速な字幕検索手法を提案する.字幕検索を実現するためには,映像中に出現するすべての字幕を正確に認識する必要はなく,検索キーに対する字幕だけを認識できれば適切な検索結果を得ることができる.そこで本手法では,各字幕の文字画像特徴量と検索キーに対応する文字画像特徴量との距離に基づいて該当の字幕が出現するフレームを検索する.また,各字幕の文字画像特徴量を多次元索引化することで,検索キーの文字画像特徴量との距離計算を高速化する.さらに,本手法では検索過程で特徴量照合を行うため,前処理で文字認識処理が必要でなく,時間コストを軽減することができる.実際に3時間分の映像データに対して映像中の出現頻度が比較的多い91単語を用いて検索実験を行った結果,1-gram特徴量を用いた場合には最大98.61%,2-gram特徴量を用いた場合には最大99.59%の平均適合率を得ることができた.検索時間に関しても,2-gram特徴量を用いた場合でも約0.5秒で検索結果を得ることができた.Video telop retrieval methods based on telop characters can retrieve the corresponding telops to the query from the huge video data. The conventional methods make the text data from the image data of telop characters by recognizing all telop characters in the video data, and then the full text search is operated toward the recognized text data. The conventional methods can not retrieve with high precision, because all telop characters can not recognize as their right characters perfectly. In this paper, a new video telop retrieval method based on telop characters is proposed. In order to specify the suitable telop, this method recognizes the only corresponding telop characters to the query keyword not all characters. This method calculates the distance between each image features of telop characters and template image features of query keyword. The number of distance calculations can decrease by indexing the multidimensional data for image features of telop characters. Experimental results, using 91 query keywords, show that the average precision of proposed method using 1-gram feature becomes 98.61%, and using 2-gram feature becomes 99.59%. Moreover, the retrieval time can be obtained in about 0.5 seconds when using 2-gram feature.
著者
三好 真人 柘植 覚 ChogeKipsangHillary 尾山 匡浩 伊藤 桃代 福見 稔
雑誌
研究報告 音楽情報科学(MUS)
巻号頁・発行日
vol.2011-MUS-89, no.23, pp.1-6, 2011-02-04

本稿では,楽曲に適切な印象値を自動付与する手法を提案する.提案手法は特徴抽出手法及び印象値付与手法から構成される.特徴抽出手法では,楽曲の印象値付与に有効と考えられる音量,音色,リズム,和音に関する特徴量を抽出する.印象値付与手法では,抽出された特徴量を用いてニューラルネットワークにより楽曲に印象値を付与する.401 個の楽曲パターンを用いて印象値付与実験及び主観評価実験を行い,提案手法の有効性を検証した.
著者
柘植 覚 獅々堀正幹 黒岩 眞吾 北 研二
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌 (ISSN:18827764)
巻号頁・発行日
vol.44, no.1, pp.59-67, 2003-01-15
被引用文献数
5

近年のインターネット技術の発展により,World Wide Web(WWW)を代表とする個人で扱えるオンラインテキストデータの量が増加している.それにともない,莫大なテキストデータ中から必要な情報を検索する機会も増え,情報検索に関する研究への関心が高まっている.情報検索システムとして,検索対象文書と検索質問を多次元ベクトルで表現するベクトル空間モデル(VSM: Vector Space Model)が広く使用されている.VSMを用いた検索システムの精度を改善する手法の1つとして,適合性フィードバック手法(Relevance Feedback)が提案されている.この手法は,VSMを用いた1次検索結果に対し,利用者が適合・不適合の判断を行いその情報をシステムにフィードバックし,再検索を行うことで検索精度を向上させている.本論文では,この利用者からのフィードバック情報を検索対象文書全体の適合・不適合の判別に用いた.判別を行う識別器として,従来手法より,判別の能力が高く,汎化性に優れたサポートベクターマシン(SVM: Support Vector Machine)を用いた.このフィードバック手法をサポートベクターマシンによる適合性フィードバックとして本論文で提案する.日本語テストコレクション(BMIR-J2)を用いた類似文書検索実験において,提案手法は従来手法と比較し,利用者が判断し,システムにフィードバックされる文書数が50の場合,24.0%の検索精度改善を得ることが可能であった.With the rapid growth of online information, e.g., the World Wide Web(WWW), a large collection of full-text documents is available andopportunity for getting a useful piece of information is increased.Information Retrieval (IR) is now becoming one of the most importantissues for handling large text data.Relevance feedback is a technique that improves retrieval performancebased on relevance judgments from the user. Here, we propose therelevance feedback method using Support Vector Machine (SVM).Experiment results on Japanese test collection BMIR-J2 show that theproposed method is useful feedback method comparing to theconventional feedback method. Especially, the proposed method improvedthe performance of IR system.