著者
柴田 直 三田 吉郎
出版者
東京大学
雑誌
基盤研究(A)
巻号頁・発行日
2005

過去に経験した最もよく似た事例の連想・想起により、人間は迅速かつ柔軟にものごとの認識・判断を行っているという「連想原理」に基づき、我々はこれまで脳の機能を模擬した知能VLSIシステムの開発を行ってきた。本研究の主眼は、これまでの静止画像の認識に加え、さらに動画像の意味を理解できるシステム構築の基礎技術確立である。“What is it?"をさらに一歩進め、“What is it doing?"の認識を可能にするシステム高機能化の研究である。動きの理解には、先ず動画像から動きの情報を抽出し、それを特徴ベクトル表現に変換することが必須である。そのため、実時間の動き場生成VLSIプロセッサを新たな回路方式で実現した。アナログVLSIでは、時間領域演算に基づく新たなハードウェアアルゴリズムを導入し、500fpsでのnormal optical flow生成可能なCMOSイメージセンサを開発した。またデジタルVLSIでは、方向性エッジ情報を用いたブロックマッチング法を新規開発し、これにより超高速の高精度動きフィールド生成に成功した。このチップは、2.8GHzCPUを用いたソフトウェア処理と比較して、たった100分の1の遅い周波数動作で1000倍以上高速の高密度動きフィールド生成を実現した。また各瞬間の動きフィールドをコンパクトに表現する動き成分空間分布ヒストグラム(PPMD)ベクトル、さらにPPMDベクトルを時間的・空間的に積分してあるアクション全体を表現するMotion History Vector等のアルゴリズムを開発、前者は隠れマルコフモデルを用いて認識を行い、後者は従来の連想マッチングで認識を行う。これらのアルゴリズムにより、エゴモーションの認識、簡単なジェスチャーの認識、さらに動き物体の追跡がロバストに行えることを実証した。