著者
髙嶺 潮 遠藤 聡志 Kolodziejczyk Jakub 西銘 大喜
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会全国大会論文集
巻号頁・発行日
vol.2019, pp.4I2J204, 2019

<p>機械が現実世界の空間情報を獲得するための重要な手段の一つが単眼深度推定である。人間は深度推定に使用できる情報の種類を増やし、問題領域を分割することで精度の高い深度推定を実現している。これを受け、深度以外の情報をRGB画像から獲得することによって単眼深度推定を改善しようとする試みが幾つか存在する。Semanticラベルを用いた実験では、解釈可能な意味の種類が多いラベルが入力画像の幅を制限することがわかり、人間の主観によって定義された情報の欠点を浮き彫りにした。対して、深度勾配を扱った実験は、推定結果の外れ値の削減に大きく貢献している。これらの結果は、数値的に定義可能なオブジェクト情報が、人間が深度推定を行う際に獲得する冗長性の再現に繋がることを示唆している。本研究は、物体の前後関係情報の推定を行うことで深度推定を分類問題の分野に落とし込み、単眼深度推定の精度向上を狙うものである。Multi-Scale Modelを用いた対照実験により、重なり情報の有効性が証明された。</p>
著者
髙嶺 潮 遠藤 聡志
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.36, no.5, pp.B-KC6_1-9, 2021-09-01 (Released:2021-09-01)
参考文献数
11

Scene understanding is a central problem in a field of computer vision. Depth estimation, in particular, is one of the important applications in scene understanding, robotics, and 3-D reconstruction. Estimating a dense depth map from a single image is receiving increased attention because a monocular camera is popular, small and suitable for a wide range of environments. In addition, both multi-task learning and multi-stream, which use unlabeled information, improve the monocular depth estimation efficiently. However, there are only a few networks optimized for both of them. Therefore, in this paper, we propose a monocular depth estimation task with a multi-task and multistream network architecture. Furthermore, the integrated network which we develop makes use of depth gradient information and can be applied to both supervised and unsupervised learning. In our experiments, we confirmed that our supervised learning architecture improves the accuracy of depth estimation by 0.13 m on average. Additionally, the experimental result on unsupervised learning found that it improved structure-from-motion performance.
著者
髙嶺 潮 遠藤 聡志
出版者
一般社団法人 人工知能学会
雑誌
人工知能学会論文誌 (ISSN:13460714)
巻号頁・発行日
vol.36, no.5, pp.B-KC6_1-9, 2021

<p>Scene understanding is a central problem in a field of computer vision. Depth estimation, in particular, is one of the important applications in scene understanding, robotics, and 3-D reconstruction. Estimating a dense depth map from a single image is receiving increased attention because a monocular camera is popular, small and suitable for a wide range of environments. In addition, both multi-task learning and multi-stream, which use unlabeled information, improve the monocular depth estimation efficiently. However, there are only a few networks optimized for both of them. Therefore, in this paper, we propose a monocular depth estimation task with a multi-task and multistream network architecture. Furthermore, the integrated network which we develop makes use of depth gradient information and can be applied to both supervised and unsupervised learning. In our experiments, we confirmed that our supervised learning architecture improves the accuracy of depth estimation by 0.13 m on average. Additionally, the experimental result on unsupervised learning found that it improved structure-from-motion performance.</p>