著者
上東 太一 甫足 創 柳井 啓司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.93, no.8, pp.1397-1406, 2010-08-01
被引用文献数
3

近年,食事に関する健康管理が注目され,より簡単に食事内容が記録できるシステムの実現が望まれている.そこで,本研究では,画像認識技術を用いて食事内容を記録するシステムを提案する.画像認識手法としては最新の機械学習の手法であるMultiple Kernel Learning(MKL)を用いて,局所特徴,色特徴,テクスチャ特徴などの複数種類の画像特徴を統合し,高精度な認識を実現することを提案する.MKLを用いることにより,カテゴリーごとに認識に有効な画像特徴を自動的に推定し,各特徴に対して最適な重みを学習することが可能となる.それに加え,本研究では,提案した食事画像認識手法を組み込んだ食事画像認識システムのプロトタイプを実装した.実験では,50種類の食事画像データセットを構築し,提案手法の評価を行い,平均分類率61.34%を達成した.50種類もの大規模な食事画像の分類は,実用的な精度で実現することが困難であったため報告例がないが,本研究ではMKLによる特徴統合を行う提案手法によって,初めて大規模食事画像分類において高い認識精度を達成することができた.
著者
河野 憲之 柳井 啓司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 (ISSN:09135685)
巻号頁・発行日
vol.113, no.230, pp.59-64, 2013-10-03

多くの人々がTwitter を利用するようになり,大量に投稿されたツイートを通して人々の行動や考えを分析することが可能となった.ツイートには画像が付与されたものも多く,特に昼食時,夕食時には,食事の画像が大量にツイートされる.そこで,本稿では2011年5月から2013年8月の2年4ヶ月の間に収集した約10億件の画像付きツイートに対して,食事キーワード検索と高速食事画像認識エンジンを用いて,100種類の食事画像を抽出する実験を行った結果を報告する.実験では,食事画像ランキング,一部の食事カテゴリについてサンプリングによる抽出精度評価,また位置情報食事画像ツイートを用いた「ラーメン」と「カレー」に関する地域分布の分析を行った.またさらに,我々が構築した100種類の食事画像データセットを自動的に拡張するためのフレームワークについても述べる.100 類食事画像データを利用して構築した食事画像判定エンジンと,Amazon Mechanical Turk を利用したクラウドソーシングを用いて,キーワードを与えるのみで,自動的に新しい食事カテゴリのバウンディングBOX付きの画像データセットを構築する.実験では,手動で作成した既存の食事画像データセットのサブセットとの認識精度の比較を行う.
著者
柳井 啓司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) (ISSN:18827810)
巻号頁・発行日
vol.48, no.16, pp.1-24, 2007-11-15
被引用文献数
68

「一般物体認識」とは,制約のない実世界シーンの画像に対して計算機がその中に含まれる物体を一般的な名称で認識することで,コンピュータビジョンの究極の研究課題の1つである.人間は数万種類の対象を認識可能であるといわれるが,計算機にとっては,同一クラスに属する対象のアピアランスが大きく変化するために以前はわずか1種類の対象を認識することすら困難であった.ここ数年,新しいモデル表現の提案,機械学習法の進歩,計算機の高速化などにより,急速に研究が進展しており,現在は101種類の対象に対して6割程度の精度で認識が可能となってきている.本論文では,一般物体認識研究のサーベイを手法に加えて,データセット,評価ベンチマークについて行い,さらにその今後について展望する."Generic object recognition" aims at enabling a computer to recognize objects in images with their category names, which is one of the ultimate goals of computer vision research. The categories which are treated with in generic object recognition have broad variability regarding their appearance, which makes the problem very tough. Although human can recognizeten thousands of kinds of objects, it is extremely difficult for a computer to recognize even one kind of objects. For these several years, due to proposal of novel representation of visual models, progress of machine learning methods, and speeding-up of computers, research on generic object recognition has progressed greatly. According to the best result, the 66.23% precision for 101-class generic image recognition has been obtained so far. In this paper, we survey the current state of generic object recognition research in terms of datasets and evaluation benchmarks as well as methods, and discuss its future directions.
著者
八重樫 恵太 柳井 啓司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.36, pp.15-22, 2008-05-01
被引用文献数
2

今日では、Web 上のデジタル写真の普及、およびマッピングサービスの高度化は目覚ましく、それに伴い位置情報付き写真も増加している。一方で、画像認識の分野においてもより高度な手法が提唱されてきた。位置情報を画像の特徴の1つとして用いることにより、画像認識の精度を向上できる可能性が考えられる。本研究では、位置情報と航空写真を対応する画像の特徴量として用いることによって、画像認識の精度向上の可能性を検討する。画像をキーワードごとに分類し、画像と航空写真からそれぞれ SIFT 特徴を抽出し、位置情報とそれらの特徴量を統合したものの組合わせについて SVM による学習と分類の実験を行う。実験の結果、いくつかのキーワードについて、分類精度の向上が見られた。Because of recent remarkable spread of digital photos and mapping service on the Web, the number of geotagged photos are increasing greatly. Meanwhile, in the research community of image recognition, research on generic object recognition has progressed greatly for these several years. Then, we propose using geolocation as one of features to recognize geotagged images. In this paper, we examine possibility of improvement on generic image recognition by using geolocation and aerial photos as features in addition to image features extracted from images. We collected geotagged images associated with several keywords from Flickr, and extracted feature vectors by the Bag-of-Keypoints method from each image and each associated aerial photo. Next, we combined feature vectors extracted from images and aerial photos into one vector, and we performed experiments on image classification using SVM. As the result, improvements of the classification rate were obtained for some keywords.
著者
川久保 秀敏 柳井 啓司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会論文誌. D, 情報・システム (ISSN:18804535)
巻号頁・発行日
vol.93, no.8, pp.1417-1428, 2010-08-01

本研究の目的は,単語概念と画像特徴量の関係性をWeb上の大量の画像データを用いて定量的に分析することである.具体的には, (1)Bag-of-Features表現を用いた画像領域エントロピーによる単語の視覚性の分析, (2)位置情報付きの画像の分布を表すジオエントロピーによる単語概念の地理的分布の分析, (3)画像領域エントロピーとジオエントロピーによる単語の視覚性と地理的分布の関連性の分析,を行った.単語の視覚性と地理的分布の両方を分析した研究は,本研究が初めてである.本研究では,230語の名詞と,100語の形容詞について,Webからそれぞれ対応する画像を500枚ずつ収集し,これらの分析を行った.分析の結果, "sun" や "rainbow" など空に関する名詞は,他の単語に比べて画像領域エントロピーが小さく,ジオエントロピーが大きい傾向が分かった.一方,地名・地域名や偉人名に関する単語は,ジオエントロピーが小さく,画像領域エントロピーが大きい傾向にあった.
著者
柳井 啓司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2006, no.93, pp.121-134, 2006-09-08
被引用文献数
14

「一般物体認識」とは,制約のない実世界シーンの画像に対して計算機がその中に含まれる物体を一般的な名称で認識することで,コンピュータビジョンの究極の研究課題の一つである.人間は数万種類の対象を認識可能であると言われるが,最近まで計算機はわずか1種類の対象を認識することすら困難であった.ここ数年,新しいモデル表現の提案,機械学習法の進歩,計算機の高速化などにより,急速に研究が発展し,現在は101種類の対象に対して6割程度の精度で認識が可能となってきている.本稿では一般物体認識の現状と今後の展望について解説を行う."Generic object recognition"aims at enabling a computer to recognize objects in images with their category names. It is recognized as one of an ultimate goal of computer vision research. Although human can recognize ten thousands of kinds of objects, it is extremely difficult for a computer to recognize just one kind of objects. For these several years, due to proposal of novel representation of visual models, progress of machine learning methods, and speeding-up of computers, research on generic object recognition has progressed greatly. According to the best result, the 66.23% precision for 101-class recognition has been obtained so far. In this paper, we describe the current state and future directions on generic object recognition.
著者
邱 炳瑜 柳井 啓司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.108, no.363, pp.177-182, 2008-12-11

Flickrのジオタグ(位置情報タグ)付き画像を用いて,ある特定の対象Xについて,世界の各地域の代表的なX画像を表示するシステムを実現する.まず,ユーザが指定したキーワードでFlickrから約2000枚のジオタグ画像を収集し,それからノイズ画像を除去して,画像特徴および位置で分類する.実験では,例えば「noodle」というキーワードに対して,代表的な画像として日本ではラーメン画像,東南アジアではビーフン風の麺の画像,ヨーロッパではスパゲティーの画像が,各地域の代表的画像として抽出され,世界各地の様々な「noodle」について知識を深めることが可能となる.
著者
上東 太一 柳井 啓司
出版者
一般社団法人電子情報通信学会
雑誌
電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 (ISSN:09135685)
巻号頁・発行日
vol.108, no.484, pp.83-90, 2009-03-06
被引用文献数
3

近年,食事に関する健康管理が注目され,より簡単に食事内容が記録できるシステムが望まれている.そこで,本研究では,画像認識技術を用いて食事内容を記録するシステムを提案する.画像認識手法として,最新の機械学習の手法であるMultiple Kernel Learning(MKL)を用いて,局所特徴,色特徴,テクスチャ特徴などの複数種類の画像特徴を統合して,高精度な認識を実現することを提案する.MKLを用いることにより,カテゴリ毎に認識に有効な画像特徴を自動的に推定し,各特徴に対して最適な重みを学習することが可能となる.それに加え,本研究では,提案した食事画像認識手法を組み込んだ食べ物画像認識システムのプロトタイプを実装した.実験では,50種類の食べ物画像データセットを構築し,提案手法の評価を行ない,平均分類率61.34%を達成した.50種類もの大規模な食事画像の分類は,実用的な精度で実現することが困難であったため報告例がないが,本研究ではMKLによる特徴統合を行なう提案手法によって,初めて大規模食事画像分類において高い認識精度を達成することができた.
著者
堀田 大地 成冨 志優 丹野 良介 下田 和 柳井 啓司
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

本研究では,深層学習技術を用いて,食事の見た目はそのままに,カテゴリのみを変える食事画像変換を実現する.例えば,牛丼をどんぶりの形状や見た目はそのままに天丼や親子丼,海鮮丼などに自由に変換することを実現した.本研究では,CycleGANの手法を拡張し,1つの変換ネットワークで複数のカテゴリへと変換可能とするconditional CycleGANを用いた食事画像変換手法を提案する.Twitterから長期間にわたって収集した23万枚の食事画像を利用することによって,高画質な食事画像変換が実現できることを示す.
著者
秋間 雄太 川久保 秀敏 柳井 啓司
出版者
The Institute of Electronics, Information and Communication Engineers
雑誌
電子情報通信学会論文誌 D (ISSN:18804535)
巻号頁・発行日
vol.J94-D, no.8, pp.1248-1259, 2011-08-01

近年,Folksonomyの出現により,データベースにタグなどによって意味的な価値を付与することが進められてきたが,階層構造のような概念間の関係を組み込んでいるデータベースは少ない.そこで,本研究では,意味的な階層構造を考慮した画像データベースの作成方法を提案する.階層構造の構築方法は,大量の画像データの各概念のノイズを除去した後に,各概念を視覚特徴を用いたベクトル表現,タグを用いたベクトル表現,視覚特徴とタグを統合したベクトル表現の3種類のベクトル表現で,JSダイバージェンスによる距離尺度を用いて概念間の距離関係を推定し,更に概念エントロピーを作成することで,概念の広がりから上下関係を推測する.最終的には,作成した階層構造を,視覚的な特徴のみで作成した場合とタグ特徴のみで作成した場合,そしてタグと視覚特徴を結合した場合での表現結果を考察した.結果として,視覚特徴での階層構造,タグ情報による階層構造のそれぞれにおいて特有の階層構造を確認することができ,また,統合した階層構造は両方の階層構造を加味し,それぞれの特徴を内包した新しい階層構造を作り出すことに成功した.構築された階層構造には人手での発見が難しい概念間の関係が含まれ,画像検索へ役立つ可能性を示す.
著者
金子 昂夢 柳井 啓司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2014, pp.3M45, 2014

<p>スマートフォンとTwitterの普及により,今の自分の状況を投稿する人が増加してきた. ツイートには本文の他に画像や位置情報を添付でき,外出先で撮影した画像を即座に投稿することができる. 本研究では,これらのTwitterに投稿された位置情報付き画像ツイートリアルタイムなイベント検出を行う. さらに,イベントを表す画像を抽出することにより,視覚的にイベントが捉えられるようにする.</p>
著者
成沢 淳史 下田 和 柳井 啓司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集 第32回全国大会(2018)
巻号頁・発行日
pp.4O2OS3b03, 2018 (Released:2018-07-30)

本研究では文字のフォントの自動生成, 自動変換のタスクに取り組んでいる. 従来のフォント生成のタスクでは文字をいくつかのストロークから成り立つものとしモデル化を行い作成する\\ 手法が取られてきた. それに対して, 本研究では深層学習により, 画像中のフォント画像ないしパターン画像からストロークに相当\\ する特徴を自動で抽出し, 変換元のフォントから任意のデザインパターンへの変換に挑戦している. この仕組みにより手書き文字のような個人ごとのオリジナルフォントの作成が用意にできるようになる. 実験ではケチャップ文字を始めとしたユニークな質感パターン画像セットを作成し, 深層学習のクロスドメイン学習による手法と Neural Style Transfer の手法とを組み合わせ, 生成結果の可読\ 性を改善した.
著者
堀田 大地 成冨 志優 丹野 良介 下田 和 柳井 啓司
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2018, pp.4Pin110, 2018

<p>本研究では,深層学習技術を用いて,食事の見た目はそのままに,カテゴリのみ を変える食事画像変換を実現する.例えば,牛丼をどんぶりの形状や見た目はそ のままに天丼や親子丼,海鮮丼などに自由に変換することを実現した.本研究で は,CycleGANの手法を拡張し,1つの変換ネット ワークで複数のカテゴリへと変換可能とするconditional CycleGANを用いた食事 画像変換手法を提案する.Twitterから長期間にわたって収集した23万枚の食事 画像を利用することによって,高画質な食事画像変換が実現できることを示す.</p>
著者
林山 剛久 柳井 啓司 野下浩平
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM)
巻号頁・発行日
vol.2002, no.34(2002-CVIM-133), pp.161-168, 2002-05-09

テレビ放送からの自動情報抽出の研究の一例として、本研究では、囲碁対局テレビ番組から画像認識によって自動的に対局棋譜を生成するシステムを提案する。システムは、囲碁対局番組の画面画像を取り込み、画面中の囲碁盤の位置を検出し、置石(囲碁盤上に置かれている石)を検出して、囲碁対局の棋譜の自動生成を行う。対局中の画面画像を認識する際には、対局画面とそれ以外の対局には直接無関係な画面の識別や、囲碁盤上に現れる指し手の手や頭などの置石以外の物体の除去などの、囲碁対局テレビ番組の特有の問題点に対する対処を行う。我々は、実装したシステムを用いて、実際の11対局分の囲碁対局番組に対して実験を行い、96%の適合率と83%の再現率を得た。
著者
野ロ顕嗣 柳井 啓司
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) (ISSN:09196072)
巻号頁・発行日
vol.2008, no.36, pp.7-14, 2008-05-01
参考文献数
8

本研究では,国際映像処理ワークショップ TRECVID で 2007 年から始まった映像自動要約タスク(rushes summarization)について取り組む.映像中のショットを色,動き,顔特徴に基づいてクラスタリングし,代表ショットを選ぶことにより映像の自動要約を実現する方法について提案する.実験として最初に3つのシステムについて比較した.1つは特徴量が色だけのもの,2つめは特徴量として動きと色を用いたもの,最後に動き,色,顔を用いたものである.次にこれらのシステムと TRECVID 2007 の参加者との結果を比較した.3つのシステムを比べた結果,動き情報を用いたものと用いなかったものでは結果に大きな差が表れた.次に顔情報であるが,これも結果に大きな差を与えた.以上のことから特徴に顔と,動きを加えることはこのタスクにおいてとても有効であることが分かった.ただしクラスタリングにおいては色特徴を使用しているので,全体的に色が変化しないビデオに関しては良い結果は出せなかった.また,ground truth との一致率である IN 値に関しては TRECVID 2007 の参加者と比べて良い結果が得られた一方,システムの実行時間は他の参加者と比べ良い結果を得ることができなかった.In this paper, we present a method for BBC rushes summarization which is one of a task of TRECVID. In the proposed method, first an input video is decomposed into shots by comparing consecutive frames. Then, these shots are grouped by the k-means method, using color feature, motion feature and face feature. In the experiments, we compared three systems which employed the following feature combinations: "color", "color and motion" and "color, motion and faces". Next we compared these results with ones of the participants of TRECVID 2007. As a result, we found that motion features and face features were effective. The inclusion rate with ground truth was relatively good, while the system time was not so good.
著者
成沢 淳史 下田 和 柳井 啓司
出版者
人工知能学会
雑誌
2018年度人工知能学会全国大会(第32回)
巻号頁・発行日
2018-04-12

本研究では文字のフォントの自動生成, 自動変換のタスクに取り組んでいる.従来のフォント生成のタスクでは文字をいくつかのストロークから成り立つものとしモデル化を行い作成する\\手法が取られてきた.それに対して, 本研究では深層学習により, 画像中のフォント画像ないしパターン画像からストロークに相当\\する特徴を自動で抽出し,変換元のフォントから任意のデザインパターンへの変換に挑戦している.この仕組みにより手書き文字のような個人ごとのオリジナルフォントの作成が用意にできるようになる.実験ではケチャップ文字を始めとしたユニークな質感パターン画像セットを作成し,深層学習のクロスドメイン学習による手法と Neural Style Transfer の手法とを組み合わせ, 生成結果の可読\性を改善した.
著者
柳井 啓司 田中 哲朗 武市 正人
出版者
一般社団法人情報処理学会
雑誌
情報処理学会研究報告計算機アーキテクチャ(ARC) (ISSN:09196072)
巻号頁・発行日
vol.1996, no.13, pp.55-60, 1996-01-26
参考文献数
8

関数型言語向きアーキテクチャを持つプロセッサを,1万ゲート相当のFPGAを用いて実現した.本プロセッサは通常命令を実行するノーマルモードと関数型言語実行のためのリダクションモードの2種類の実行モードを持つ.リダクションモードでの実行を使用頻度の高い5つコンビネータにとどめ,他のコンビネータをノーマルモードで実行するという方針で設計をした結果,少量のハードウェアの追加で製作でき,ノーマルモードのみの実行と比較して5倍程度の速度の向上が確認された.A processor for functional languages was implemented on a Field Programmable Gate Array (FPGA) with 10 thousand gates. This processor has two execution modes, "normal mode" for execution of normal instructions and "reduction mode" for reduction of combinators. The design of this processor is to execute five frequently used combinators in reduction mode and others in normal mode. Combination of normal mode and reduction mode enables the processor to execute functional programs about five times as fast as that only with normal mode.