西川 伸紀 獅々堀正幹 柘植 覚 北 研二
情報処理学会論文誌データベース(TOD) (ISSN:18827799)
vol.48, no.20, pp.28-38, 2007-12-15

本研究では映像内の文字情報である字幕に着目した字幕検索システムを開発する.従来,字幕検索は映像内に出現する字幕に対して文字認識を行う手法が主流であった.しかし,この手法では,事前に文字認識を行うための時間コストが必要であり,また,完全な文字認識結果が得られない場合には検索精度が低下するという問題があった.本論文では,上記の問題点を解決した高精度かつ高速な字幕検索手法を提案する.字幕検索を実現するためには,映像中に出現するすべての字幕を正確に認識する必要はなく,検索キーに対する字幕だけを認識できれば適切な検索結果を得ることができる.そこで本手法では,各字幕の文字画像特徴量と検索キーに対応する文字画像特徴量との距離に基づいて該当の字幕が出現するフレームを検索する.また,各字幕の文字画像特徴量を多次元索引化することで,検索キーの文字画像特徴量との距離計算を高速化する.さらに,本手法では検索過程で特徴量照合を行うため,前処理で文字認識処理が必要でなく,時間コストを軽減することができる.実際に3時間分の映像データに対して映像中の出現頻度が比較的多い91単語を用いて検索実験を行った結果,1-gram特徴量を用いた場合には最大98.61%,2-gram特徴量を用いた場合には最大99.59%の平均適合率を得ることができた.検索時間に関しても,2-gram特徴量を用いた場合でも約0.5秒で検索結果を得ることができた.Video telop retrieval methods based on telop characters can retrieve the corresponding telops to the query from the huge video data. The conventional methods make the text data from the image data of telop characters by recognizing all telop characters in the video data, and then the full text search is operated toward the recognized text data. The conventional methods can not retrieve with high precision, because all telop characters can not recognize as their right characters perfectly. In this paper, a new video telop retrieval method based on telop characters is proposed. In order to specify the suitable telop, this method recognizes the only corresponding telop characters to the query keyword not all characters. This method calculates the distance between each image features of telop characters and template image features of query keyword. The number of distance calculations can decrease by indexing the multidimensional data for image features of telop characters. Experimental results, using 91 query keywords, show that the average precision of proposed method using 1-gram feature becomes 98.61%, and using 2-gram feature becomes 99.59%. Moreover, the retrieval time can be obtained in about 0.5 seconds when using 2-gram feature.