著者
伊藤 慶明 木山 次郎 関 進 小島 浩 張建新 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音声言語情報処理(SLP) (ISSN:09196072)
巻号頁・発行日
vol.1995, no.73, pp.17-22, 1995-07-20
参考文献数
17
被引用文献数
18

本稿では、人間と計算機の新しい対話形態,インタフェース・システムの提案を行う。本システムでは、マルチユーザによる音声とジェスチャのマルチモーダルな入力が可能で、これらの認識技術を統合することによって音声とジェスチャの同時かつ相補的な理解を実現する。さらに、システムの理解内容を合成音声と画像を通してリアルタイムにかつ漸次的にユーザにフィードバックすることによって、複数の人間と計算機との知的で、かつ豊かなコミュニケーションを実現する。本方式は、一種の思考の支援と考えることもでき、これを次世代のインタフェースと位置付ける。我々は、このインタフェースを実現するために、frame?wise and realtime spotting技術を用いて、複数話者による音声とジェスチャの同時認識/理解リアルタイム統合インタフェースシステムを試作した。This paper proposes a new type of dialog system, or interface system between men and computers. This system allows multi-modal input of speech and gesture by multiple users, and enables simultaneous and complimentary understanding for speech and gesture by integrating both recognition technologies. It realizes intellectual and affluent communication between multiple users and computers by real-time and gradual feedback of understanding state in the system, using synthesis speech and graphics image. The system can be thought as a novel interface system as it gives users a sense of reality and unity. We realized such a real-time interface system that integrates speech understanding and gesture understanding by multiple users.
著者
西村 拓一 向井 理朗 野崎 俊輔 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.80, no.6, pp.1563-1570, 1997-06-25
参考文献数
12
被引用文献数
60

我々は, 動作者にデータグロープ等の接触型センサやマーカーを装着させることなく, 人間の身振り手振りをとらえた動画像からのジェスチャ認識を試みている. ここでは, 時間差分画像から特徴を抽出しているが, 衣服・背景の変化や動作の軌跡変動に影響されやすいという問題点があった. そこで, 本論文では, 時間差分画像の2値化により変化領域を求めることで前者の問題に対処し, 更に低解像度の画像特徴を用いることで後者の問題を解決できることを示す. また, 複数人物を同時にとらえるために適したカメラを用いて, 低解像度の人物のジェスチャでも本手法によりロバストに認識可能であることを実証する.
著者
橋口 博樹 西村 拓一 矢部 博明 赤坂 貴志 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告音楽情報科学(MUS) (ISSN:09196072)
巻号頁・発行日
vol.2001, no.16, pp.57-62, 2001-02-22
被引用文献数
5

近年,多量の音楽ディジタルデータを個人が所有するようになり,楽曲の検索ニーズが高まっている.これに伴い,著者らは鼻歌から音程を抽出し,音楽音響信号からは主旋律の候補を選定し,主旋律推定のあいまいさを考慮に入れた検索システムを開発した.この検索は,mp-CDPと呼ばれるマッチング手法により実現されている.本稿では,主旋律の検索機能に加え,歌詞を歌った場合の鼻歌を想定し音素認識に基づく歌詞検索機能も導入する.この場合,通常行なわれている音声認識の技術を単に採用するだけでは,歌のようにピッチが激しく変化するという状況を想定していないことと,ボーカル以外のBGMの影響により,音素認識は困難であると考えられる.そこで,本稿では,比較的認識しやすい母音の音素認識を取り上げ,さらに,楽曲からは,mp-CDPがたどった主旋律情報を音素認識に利用する方法を検討する.The integration of rhythm and lyric recognition in a music retrieval system is the main purpose of this paper. In order to realize a music retrieval system based on rhythm extraction, we have already proposed a matching method called "Model driven path Continuous Dynamic Programming (mp-CDP)" to retrieve a part of music signal by a hamming query. This method detects several intervals in a music signal which are similar to a hamming query. This paper focuses on recognizing vowel categories in a song signal. Lyric recognition problem is out of scope of conventional speech recognition problems. Matching paths obtained by applying mp-CDP lead to enhance the features for recognizing vowel categories.
著者
橋口 博樹 西村 拓一 張 建新 滝田 順子 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 (ISSN:09151923)
巻号頁・発行日
vol.84, no.12, pp.2479-2488, 2001-12-01
被引用文献数
23

本論文は, 鼻歌から抽出される音高の差(音程)の時系列を検索入力として, それに類似する区間を楽曲の音響分析パターン時系列中から見出す検索手法の提案を行う.提案手法(Model driven path Continuous Dynamic Programming)は, スポッティング検索可能な連続DPを拡張した手法であり, 参照モデルの時系列自体が, 連続DPで用いられる傾斜制限の型を直接定めていることに特徴がある.本論文では, ポピュラー音楽20曲について鼻歌検索実験を行い, 本提案手法の有効性を示す.
著者
高橋 勝彦 関 進 小島 浩 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D-II, 情報・システム, II-情報処理 (ISSN:09151923)
巻号頁・発行日
vol.77, no.8, pp.1552-1561, 1994-08-25
被引用文献数
110

CCDカメラ等によって得られる動画像から人間の身振り手振りを認識する手法を提案する.入力画像系列から,垂直・水平・時間方向のエッジ特徴を抽出し,これらを時空間的にリダクションすることによって得られる時空間ベクトル場を用いて各ジェスチャーの標準パターンを表現する.認識対象画像系列と標準パターンとのマッチングにはスポッティング認識手法を用いる.スポッティング認識は,(1)ジェスチャーの時間区間のセグメンテーションが不要,(2)フレームワイズ,すなわち入力画像フレームに同期して認識結果を生成する,といった特長をもつ.7種類のジェスチャーを認識対象として実験を行った結果,本手法によってほぼ正しくジェスチャーを認識できることがわかった.特に時間方向のエッジ特徴を用いた場合は,標準パターン作成時の認識時での被験者の衣服・背景の変化に対し,ロバストであることが確認された.また,本手法を画像処理ボードとワークステーションを組み合わせたシステムにインプリメントし,4種類のジェスチャーをリアルタイムに認識するシステムを構築した.
著者
矢口 勇一 大島 万里恵 河合 天士 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. IE, 画像工学 (ISSN:09135685)
巻号頁・発行日
vol.109, no.63, pp.59-64, 2009-05-21

本論文では,Web中にあるからの感性情報の検索を行うために,Web動画中の音声検索システムを用いての類似性を基に感性検索をする方法を提案し,その予備実験を報告する.Web上のビデオデータは極めて多種多様であり,これらの感性的意味を単一の記号によって表現することか不可能に近いといえる.このような時系列データを対象にして,感性語に対応するビデオデータの区間を検索することは,かなり一般化された手法を用いる必要がある.本論文では,フレームワイズな音素識別に基づく音声検索手法をWeb上で実装したAiZoomというシステムを用い,検索したクエリと類似する音声区間を含むビデオデータの部分を抽出し,その類似区間の感性を分類した感性ヒストグラムを用いて,その動画の感性特徴を得る.また,この感性特徴を得た区間のオプティカルフローを調べて,個々の感性特徴に対応する画像特徴が得られるかを検証する.
著者
矢部 博明 西村 拓 向井 理朗 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎 (ISSN:09135685)
巻号頁・発行日
vol.99, no.183, pp.23-30, 1999-07-15

動画系列とその意味する単語の記号列に基づくジェスチャ認識手法を提案する。まず、Incremental Path Methodと呼ぶ方式で、ジェスチャー動画像データからそのnetworkモデルの自動作成を行い、ネットワークのトポロジ解析によりジェスチャの部分共通性、特異性を抽出することで、ジェスチャ動画像の自動文節をする。ジェスチャ動画像系列に現れるジェスチャの順序と、その意味する単語記号の記号系列の順番が一致しているとき、テキストデータについても、同様に自動的に文節化する。それぞれのネットワークの間で部分的対応を取ることで、ジェスチャ動画像について自動的に意味付けを行う認識方法を提案する。さらに、本方式の有効性を検証するために、テキスト付き手話データを対象とした認識実験を行い、本手法の有効性を検証する。
著者
井関 健太 矢口 勇一 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎 (ISSN:09135685)
巻号頁・発行日
vol.108, no.328, pp.101-108, 2008-11-20

本報告は,任意の対画像のピクセル最適対応を与える2次元連続DPを用い,少ない枚数の画像で精度のよい3次元形状が復元できることを示す.従来法が対象物体から連続的に観測した面像列における特徴点の対応系列を利用するのに対して,提案手法は画像集合の1枚の画像と任意の他の画像とのすべてのピクセル対応を利用する.ピクセル対応点が稠密に利用できるため,因子分解法によって3次元形状を復元する際,少数枚の画像から精密な形状復元ができる.ピクセル対応関係からメッシュ構造が得られる事を利用し,ドロネー三角網を定義する事なく密なテクスチャマッピングを施すことができる.これらのことを実験で示すとともに,従来法の典型であるKLT,SIFT+因子分解法を同一画像集合に適用し,比較実験も行った.これらの実験で提案手法が従来法より精密な3次元形状復元を行うことが分かった.
著者
川島 啓嗣 諏訪 太朗 村井 俊哉 吉岡 隆一
出版者
一般社団法人 日本総合病院精神医学会
雑誌
総合病院精神医学 (ISSN:09155872)
巻号頁・発行日
vol.26, no.2, pp.168-174, 2014-04-15 (Released:2017-06-03)
参考文献数
24

電気けいれん療法の刺激を構成する個々のパラメータは,それぞれ固有の神経生物学的効果を有し,有効性や認知機能障害に大きく影響するが,本邦においてそれらのパラメータについて十分な注意が払われているとは言い難い。本稿ではパルス波治療器で調節可能なパラメータである刺激時間,パルス周波数,パルス幅に焦点を当ててこれまでの議論を概観し,刺激時間が長いこと,周波数が低いこと,そしてパルス幅が短いことが効率的な発作誘発に有利であることを確認した。最後にパルス波治療器の最大出力で適切な発作が誘発できない場合に,刺激パラメータ調節が有効な場合があることを特にパルス幅に注目して論じ,その理論的な手がかりについて考察した。
著者
向井 理朗 山下 浩生 岡 隆一
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.1998, no.79, pp.9-16, 1998-09-17
参考文献数
6
被引用文献数
7

人間の身振りを計算機システムにいかに理解させ,より円滑で自然な対話を支援するかは重要な課題である.こうしたジェスチャー認識システムの開発を進めるための共通的な基盤となる人間の身振りのデータベース整備はその対象となる身振りが非常に多様であることやデータ整備自身についての知見の不足からこれまで十分には行われてこなかった.そこで我々はジェスチャーデータベースの企画,仕様決定,作成を行ったので,データベースの収録方法,収録データ等についてを報告し,今後のデータベース整備の概要を報告する.In this paper, we describe about Gesture Database. It is important to be understood human gesture by computer. A common database is necessary to develop gesture recognition system. We developed gesture database. We used sign language as a gesture. Sign language includes a rule of movement. Therefore, we use sign language as the data which don't depend on recognition system. We describe specification and recording method of database and describe preparation of future database. And, we intend to show this database to a general researcher.
著者
岡 隆一
出版者
一般社団法人日本建築学会
雑誌
建築雑誌 (ISSN:00038555)
巻号頁・発行日
vol.47, no.570, pp.509-521, 1933-04-05
著者
森 靖英 高橋 裕信 新田 義貴 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解
巻号頁・発行日
vol.98, no.274, pp.9-15, 1998-09-17
被引用文献数
1

互いにリンク付けられた画像・文章データベースをコアデータとして用いた画像理解方式を提案する.本方式では, 文書データは, 単語の共起関係に基づく非線形クラスタリングによって空間配置される.画像データも, その特徴量ベクトル抽出後, 同じく非線形クラスタリングによって, より低次元の特徴量空間に写像される.この際, 対応する文章の距離関係が埋め込まれる.両クラスタリングデータを用いて, 入力された未知画像は, クラスタリング空間において類似画像検索され, 検索された既知画像とリンクを持つ文章を用いて, その関連文が出力される.本報告では, 約8, 000対の画像・文書データを用いて, 未知画像からどの程度関連した文が出力されるか調べた.
著者
木山 次郎 伊藤 慶明 岡 隆一
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. SP, 音声
巻号頁・発行日
vol.95, no.123, pp.81-88, 1995-06-23
被引用文献数
22

蓄積された任意話題の音声から重要な単語を取り出したり、話題の境界を検出することができれば有用であろう。本稿では、音声中の互いに類似した十分な長さの区間を抽出することによって重要区間抽出を実現する手法を提案する。この方式は、任意の話題について詳細な要約が可能という利点を持つ。1名の話者の発声した模擬対話音声を対象に実験を行ない、本方式の有効性を確認した。また、本稿では、互いに類似する区間の対応関係を利用した、話題境界の抽出法を提案する。1名の話者が発声する4話題の模擬対話を接続した音声を用いた実験により、本手法が有効であることを確認した。さらに、本稿では、長時間の音声中の類似区間を抽出するのに適した手法として、Incremental Reference Interval-free Continuous Dynamic Programming(IRIFCDP)を提案する。