著者
古賀 久志
出版者
一般社団法人 電子情報通信学会
雑誌
電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review (ISSN:18820875)
巻号頁・発行日
vol.7, no.3, pp.256-268, 2014-01-01 (Released:2014-01-01)
参考文献数
32

一般に,ハッシュ法と言えば指定されたクエリとキーが同一であるデータを高速探索するための技術であり,実用上,O(1) の時間計算量で動作する.しかし,近年,クエリと完全には一致しない類似したデータを探す類似検索向けのハッシュ法が開発され,画像やテキストに代表されるメディアデータに対するコンテンツベースパターン認識の分野で成功を収めている.本稿では,このようなハッシュを利用した類似検索技術を紹介する.更に,その応用として(1) 階層的クラスタリングの近似高速化,(2) 複数画像からのオブジェクト抽出の二つの事例を紹介する.
著者
木村 洋章 渡辺 俊典 古賀 久志 張諾
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告情報学基礎(FI) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.94, pp.65-70, 2006-09-12
参考文献数
11

著者らは情報の圧縮性に着目した新たなマルチメディアデータ解析手法の研究を進めている.PRDC(Pattern Representation Scheme using Data Compression)[1]と呼ぶこの新概念の中では,二つのデータX,Yの類似度を,それらを圧縮辞書D1,D2,…,Dnで圧縮した時の圧縮率ベクトルの類似度で判断する.本論文ではPRDCを用いた新文書検索システムの可能性を探る.部分的ではあるが,文書分類,公知/特異句抽出,文書要約,など将来の高自立・適応文書検索システムの実現に重要な機能を実現できる可能性を提示する.キーワード 文書解析,情報検索,要約,新句抽出,データ圧縮We have been studying a new multimedia data analysis scheme based on the concept of compressibility. In this new concept of PRDC(Pattern Representation Scheme using Data Compression)[1], we consider two data, let them X and Y, are similar if their compressibility vectors under a set of compression dictionaries D1, D2, ..., Dn are similar. Here we investigate the possibility of new document retrieval system using the PRDC. We prove that PRDC has possibilities to solve several fundamental problems including, document classification, common/distinguished phrase extraction, and summary, that should be realized in the future highly autonomous and adaptive document retrieval systems.Key words Document analysis, Retrieval, Summarization, New phrase detection, Data compression
著者
山崎 啓介 張諾 渡辺 俊典 古賀 久志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告自然言語処理(NL) (ISSN:09196072)
巻号頁・発行日
vol.2007, no.94, pp.35-40, 2007-09-25

高次元特徴空間を用いるテキスト分類等において不必要な次元軸を排除することは計算量などの面から重要な問題である.この問題を解決するためには不要と考えられる次元を見出し,類性能を保つ範囲でその次元を削除していくことを繰り返せば良い.本稿では,まずテキストをその圧縮率ベクトルに着目して特徴付ける方式を示し,そこでの次元縮小法と次元縮小に必要なパラメータ設定を支援する指標関数を提案する.指標関数を参考にしながら対話的に次元縮小を行うことで,分類精度を保ったまま約 50 %の次元縮小が可能となった.When text classification is implemented in high-dimension space, removing unnecessary dimensions becomes important to reduce computation cost. This problem can be solved by finding out unnecessary dimensions and removing them , keeping the classification power of the space. In this paper, we express texts by compression ratio vectors. After introducing it, we propose an interactive dimension reduction method with an index function. The index function is used to judge whether reduction should be continued or not. By removing unnecessary dimensions by using the interactive processing , we clould achieve 50% dimension reduction while keeping the classification accuracy of the space.
著者
杉内 崇浩 渡辺 俊典 古賀 久志
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2004, no.113, pp.133-140, 2004-11-12

近年、オブジェクト認識は、セキュリティ認証、ロボットビジョンなどさまざまな場面で使われるようになってきた。我々は、画像オブジェクトをカラー画像の領域分割により直接得られる領域の集合と考えることにより、オブジェクト定義の自動抽出、認識手法について検討している。本稿では、画像内に複数回出現するオブジェクトを圧縮して得られる圧縮率を利用した自動オブジェクト抽出手法を提案する。In recent years, object recognition has come to be used in various scenes, such as security authentication and robot vision. We study automatic extraction and recognition of objects from images by considering an object as a set of the regions directly obtained by image segmentation. In this paper, the automatic object extraction method using data compression ratio in compressing the objects which appears multiple times in image is proposed.
著者
吉岡 泰智 渡辺 俊典 古賀 久志 横山 貴紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.90, no.1, pp.83-93, 2007-01-01
被引用文献数
1

ビデオの内容を自動認識する技術は,監視,圧縮,要約など応用範囲が広い.認識対象を想定してそのモデルを人手や学習によって事前準備しておくというのが伝統的画像認識手法であるが,事前に想定できない多様な内容を含み,かつデータ量も膨大なビデオには十分対応できない.対策として,事前のモデル設定なしにビデオを観測しながらモデルの獲得と認識とを行う機構が望まれる.更にリプレイ時間や記憶のコストを削減するためにはワンパスで実時間性を備えたオンラインリアルタイム処理が理想である.本論文では,このような機能を備えたビデオ内動作オブジェクト自動認識システムを提案する.人の行動を撮影したビデオのみを与えて,歩く,座る,などの基本動作の獲得と認識とが完全自動で行えることを示す.
著者
齋藤 裕明 古賀 久志 渡辺 俊典 横山 貴紀
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. DE, データ工学 (ISSN:09135685)
巻号頁・発行日
vol.106, no.97, pp.7-12, 2006-06-08
被引用文献数
1

木は半構造データや遺伝子情報など多様なオブジェクト表現に用いることが出来るデータ構造であり、パターン認識や情報検索を行う為には木間の類似度を求める技術が重要である。木間類似度としては、2つの木をノードの挿入、削除、置換によって一致させる際の木編集距離を非類似度とする方法がある。木編集距離は木の構造の類似性と内容(ラベル)の類似性を含む非類似度であるが,木データを分類する際、構造の類似性と内容の類似性のどちらを重視するかはアプリケーションやデータによって真なる。そこで本論文では、木編集距離を内容非類似度と構造非類似度の2つに分離し、適用対象の特徴やユーザーの目的を適切に反映するクラスタリング結果を得る方法を提案する。
著者
森田 昭広 古賀 久志 渡辺 俊典 横山 貴紀
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告アルゴリズム(AL) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.30, pp.49-54, 2006-03-17

グラフのマッチング問題は一般に計算量が膨大であるが,問題固有の属性情報などを用いて効率的な探索を実現できる可能性がある.本研究では,グラフマッチング問題が入力2グラフから生成される積グラフの最大クリークを抽出する問題へ還元できることに着目し,その効率化のために2つの属性情報利用アルゴリズムを考案した.1つ目はクリーク抽出の探索過程で属性情報を用いて探索領域を削減する方法,2つ目は積グラフの生成時に属性情報を用いて積グラフの規模自体を抑制する方法である.これらを計算機実験によって比較検証した結果,双方共に有効であるが,特に後者の有効性が顕著であることを確認した.Graph matching problem has a very high computational complexity. But we can reduce it by exploiting domain-specific information such as object's attributes. In this research, where we solve the graph matching problem by reducing it into a maximum clique problem in a product graph generated from the two input graphs, we propose two algorithms, both exploiting attribute information. One is the method of decreasing the search space by using attribute information in the process of maximum clique search. The other is the method of decreasing the size of the product graph by using attribute information during the product graph generation. Through experiments we showed that, although both are effective, the latter dominates the former.