Abstract
RGB-D 데이터는 컴퓨터 비전에서 많은 문제를 해결하는 데 필수적이다. 실내, 실외, 운전 및 의료 분야와 같은 다양한 분야에서의 수백 개의 공개 RGB-D 데이터셋이 제안되었다. 본 논문에서는 깊이 정보를 포함하는 이미지 데이터셋을 검토하고 분류하여 접근 가능한 데이터를 포함하는 231개의 데이터셋을 모았으며,, 데이터셋을 사용하고 생성하는 경향 및 미래 방향을 조사하였다. 이러한 데이터가 단안 깊이 추정 분야의 일반화된 기계 학습 모델 개발 조사에 어떻게 적용될 수 있는지 살펴보았다.
1. Introduction
- 깊이(”Depth”) 정보는 다양한 컴퓨터 비전 및 이미지 분석 응용 프로그램에서 중요한 정보
- ex) 합성 객체 삽입, 로봇 팔, 2D → 3D 변환, 자율 주행, 로봇 수술
- 최근에는 딥러닝 방법을 통해 더 정확하고 밀도 있는 Depth Map을 생성
- ex) finer-grained details , 희소한 입력으로부터 밀도 있는 지도 생성
- 깊이의 다양한 응용 분야로 인해 많은 Dataset에는 취득한 장면의 점들의 거리 측정이 포함됨
- ex) SLAM(동시 위치추정 및 지도작성), 객체 분할, 인간 활동 인식
Depth에 대한 중요한 연구 중 하나로는 “단안 깊이 추정(monocular depth estimation)”이 있다. 깊이 센서를 사용하지 않아도 되므로 많은 비용이 발생하는 LiDAR와 달리 시스템 크기와 비용을 줄일 수 있고, 이미 존재하는 단안 시스템에 바로 적용 가능하다. 현재 사용 가능한 이미지 촬영 시스템의 대부분을 이루는 것이 바로 이러한 시스템이다. 데이터셋의 증가와 다양성으로 인해 연구자들은 더 일반화된 형태의 깊이 추정을 탐구할 수 있었으며, 이는 제로샷 교차 데이터셋 깊이 추정에 중점을 둔 기술로 이어졌다. 본 논문의 주요 목적은 복잡성과 크기 방면 모두에서 발전된 데이터 셋을 분류하고 요약하는 것으로 구성된다.
Section 별 내용 요약
- Section 2 : 깊이 센서를 논의하고 분류하여 각 범주에 대한 주요 차이점과 응용 사례를 설명
- Section 3 : 문헌 검토를 수행하는 데 사용된 방법론을 제시
- Section 4 : 범주별로 나뉜 데이터셋을 제시하고, 각 범주에서 가장 영향력 있는 데이터셋을 설명
- Section 5 : GB-D 데이터 사용의 추세를 제시하고 논의
- Section 6 : 당 분야의 요약을 제공하고 영역이 어떻게 발전되고 있는지 논의
2. Sensors
- 거리 또는 깊이 데이터는 3D 장면을 2D 이미지로 변환하여 이해하는 데 필수적
- 깊이 센서는 센서로부터 장면의 요소까지의 거리를 제공하는 장치
- 스테레오 카메라 센싱 : 두 개 이상의 RGB 카메라를 사용하여 거리 정보를 수집하는 것
- ex) Light Field Camera
- 깊이 센서의 분류는 구조화된 빛, 시간-비행 (TOF), 광선 검출 및 거리 측정 (LiDAR), 그리고 스테레오 카메라 센싱으로 구성됨
※ Sparse Map : 적은 수의 데이터 포인트를 가지고 있는 지도나 맵을 의미
※ Dense Map : 매우 많은 데이터 포인트를 가지고 있는 지도나 맵을 의미
2.1. Structured Light
- 구조화된 빛 센서는 빛을 프로젝터로 투사하고 카메라로 캡처하여 깊이를 측정
- 삼각측량 기술을 사용하여 거리를 추정하며, 이를 위해 프로젝터와 카메라 사이의 거리, 내부 매개변수, 프로젝터의 위치가 필요
- 이미지에서 픽셀로 표현되는 각 위치에 점을 투사해야 하기 때문에 속도가 느림
- 위 문제를 해결하기 위해 바이너리 코딩 구조화된 빛 전략과 같은 다양한 코딩 전략을 사용하여 전체 깊이 맵을 생성하는 데 필요한 프레임 수를 줄일 수 있음
2.2. Time-of-Flight
- TOF(Time-of-Flight) 센서는 장면 내의 객체와 센서 사이의 거리를 측정하기 위해 발사된 빛이 센서에서 수신될 때까지 걸리는 시간을 측정
- 센서는 펄스 변조나 연속파 변조와 같은 다양한 방법을 사용하여 빛의 비행 시간을 캡처
- 강한 햇빛 조건에서 성능이 저하되지만, 실내 장면에서 주로 사용됨
- ex) Kinect v2, SoftKinetic DS 325, RIEGL VZ-400 센서
2.3. LiDAR
- LiDAR 센서는 발사된 레이저 빔의 수신 시간을 측정하여 장면 내의 점들의 깊이를 측정
- 회전하는 거울을 사용하여 360° 스캔을 생성하며, 이를 통해 포인트 클라우드를 생성
- LiDAR 포인트는 반사율 측정치를 포함하며, 이는 빛이 닿은 지점의 반사율을 측정한 것 LiDAR 센서는 어두운 환경에서도 작동
- ex) Velodyne 센서, Faro Focus 3D 레이저, SICK LMS-511
2.4. Stereo Camera Sensing
- 두 개 이상의 이미지 센서나 렌즈로 구성된 시스템으로 정의
- 간단한 카메라 쌍부터 복잡한 라이트 필드 시스템까지 모두 이 범주에 속함
- 삼각측량이 사용되며, 이는 구조화된 빛 센서와 유사한 아이디어를 사용
- ex) Light field camera, ZED 카메라
3. Methodology
방법론은 기존 지식을 종합하고 문헌의 편견과 공백을 식별하는 중요한 단계이다. 본 연구는 RGB-D 데이터셋을 설명하고 분류하며 미래 트렌드를 파악하기 위해 전통적인 방법과는 다른 방법을 사용했다. 검색어를 직접 정의하는 대신 역방향 스노우볼링을 통해 데이터셋을 수집했다. 이는 많은 데이터셋이 깊이 추정을 주된 목표로 하지 않기 때문이다. 검색 결과를 충분히 필터링하기 어렵다는 이유이다. 또한, 단안 깊이 추정, 눈에 띄는 객체 감지 및 동작 인식과 같은 주요 분야를 고려하여 검색 문자열을 정의했다. 이 방법을 통해 수집된 논문을 검토하여 231개의 데이터셋을 최종적으로 선정했다.
4. Datasets
4.1. Scene/Objects
1. SLAM, Odometry, or Reconstruction
- SLAM 및 오도메트리 관련 논문의 경우, 일반적으로 각 프레임/이미지의 캡처 장치의 위치와 방향을 나타내는 카메라 위치 정보를 제공
- ex) KITTI Dataset, ScanNet Dataset, SunCG Dataset
2. Segmentation or Other Extra Information
- 모든 데이터셋은 더 나은 장면 이해를 위한 추가 정보를 가지고 있음
- 깊이 추정 알고리즘 및 시맨틱 분할을 위한 잠재적인 응용 프로그램을 탐색
- ex) NYUv2, Scene Flow Datasets, Waymo Perception
3. Depth Data Only
- 깊이 추정 알고리즘을 훈련하기 위한 명확한 목적으로 제공
- 단안 깊이 추정, 제로 샷 깊이 추정 및 다중 카메라 깊이 추정
- ex) ReDWeb Dataset, SQUID Dataset, Middlebury Datasets
4. Others
- 이전 분류에 맞지 않는 모든 데이터셋이 포함
- 새로운 시야 합성, 시계열 이미지를 위한 안개 제거, 임의의 점 쌍 간의 상대적 깊이, 객체 추적, 거울 표면을 위한 깊이 정제, 그리고 4D RGB-D 광학필드 이미지의 합성
- ex) FRIDA2
4.2. Body
1. Human Activities
- 음료, 식사, 테니스를 치거나 걷는 등 인간 활동에 중점을 둔 모든 데이터셋을 포함
- 부분의 데이터셋은 실내 장면이지만, 행동에 중점을 둔 것으로 분류되어 "장면 유형" 열에서 "전신"으로 분류
- ex) NTU RGB+D, MSR DailyActivity3D Dataset, MSR Action3D
2. Gestures (Partial Body)
- 인간 행동이나 활동을 포함하고 팔, 머리, 손 등 인체 부위에 대한 데이터가 있는 모든 작업을 그룹화
- ex) NYU Hand Pose Dataset, MSR Gesture3D
4.3 Medical
- 의료 분야의 모든 부분에서 가져온 데이터셋을 제시
- ex) Colonoscopy CG Dataset
Conclusions
본 논문에서는 200개가 넘는 거리 정보를 포함한 데이터셋을 이미지 장면, 사용된 센서, 그리고 응용 분야에 따라 분류하고 요약했다. 이를 통해 거의 절반에 해당하는 새로운 데이터셋이 제안되었으며, 의료 응용 분야를 포함한 다양한 분야에 걸쳐 활용되고 있다. 또한, 다양한 방법으로 거리 정보를 획득하는 방법에 대해 설명하였으며, 이를 통해 연구자들이 자신의 요구에 맞는 데이터셋을 선택할 수 있도록 돕고자 한다. 이러한 연구는 제로샷 학습과 같은 모델의 일반화 능력을 향상시키는데도 도움이 될 것으로 예상된다.
'논문' 카테고리의 다른 글
[논문] RGB-D camera pose estimation using deep neural network (0) | 2024.03.18 |
---|---|
Physics-based Deep Learning - Overview (0) | 2024.03.15 |
[논문] Two-Level Attention-based Fusion Learning for RGB-D Face Recognition (0) | 2024.03.11 |
Physics-based Deep Learning - Introduction (0) | 2024.03.07 |
[논문] U-Net: Convolutional Networks for Biomedical Image Segmentation (0) | 2024.03.03 |