논문

[논문] Two-Level Attention-based Fusion Learning for RGB-D Face Recognition

bluetag_boy 2024. 3. 11. 15:54
반응형
 

Papers with Code - Two-Level Attention-based Fusion Learning for RGB-D Face Recognition

Implemented in one code library.

paperswithcode.com

 

Abstract

 본 논문은 RGB와 깊이 정보를 융합하여 RGB-D 얼굴 인식의 정확도를 향상시키기 위한 새로운 주의 기반 방법을 제시한다. 컨볼루션 특징 추출기를 사용하여 두 모달리티에서 특징을 추출한 후, 두 단계의 주의 메커니즘을 통해 이 특징들을 융합한다.

 

  1. 특징 맵 간의 관계를 활용
  2. 맵의 공간적 특징에 초점을 맞춤

 이 과정은 기하학적 변환을 통한 데이터 전처리와 순수 2D RGB 이미지 학습에서의 전이 학습을 통해 지원된다. 제안된 방법은 기존의 전통적 및 Deep Neural Network 기반 방법들보다 뛰어난 성능을 보여주고, 다른 주의 메커니즘들과 비교하여 더 정확한 결과를 제공한다.

 

※ Attention aware method : 모델이 입력 데이터의 중요한 부분에 더 많은 "주의(가중치)"를 기울이게 하는 방법, 덜 중요한 정보는 무시하면서 처리

 

 

I. Introduction

 얼굴인식(FR)은 딥러닝 방법, 모바일 및 전자기기의 광범위한 적용에 따라 지난 10년 동안 크게 발전했다. AlexNet의 도입 이후 대부분의 FR 작업들(ex 얼굴 검증(one-to-one), 얼굴 식별(one-to-many)은 CNN기반 DNN 방식을 사용하고 있다. 이러한 진전은 풍부하게 사용 가능한 2D RGB 이미지를 활용하여 보다 깊고 효과적인 신경망의 훈련을 용이하게 만들었다.

 

 그에 반면, RGB-D 이미지를 사용한 인식 작업은 상대적으로 덜 탐구되었지만, 저렴한 깊이 센서의 등장으로 인해 연구가 활발히 증가하고 있다. Depth(거리) 정보는 얼굴의 기하학적 정보를 밀집된 3D 점들의 형태로 제공하기 때문에 얼굴 인식 알고리즘을 더 정확하고 강인하게 만들었다.

 

 RGB-D 얼굴 인식을 위한 딥 러닝 접근법은 CNN 특징 추출 후 특징 레벨이나 점수 레벨의 융합과 같은 다양한 Multimodal Learning을 사용한다. 그러나, 기존의 융합 전략은 다양한 모달리티와 임베딩 부분에서 중요한 정보를 충분히 활용하지 못했다. 이에 따라, 주의 메커니즘을 도입하여, 특징 임베딩의 중요성을 선택적으로 학습하는 새로운 접근 방식을 제시한다. 이 방법은 RGB-D 이미지에서 얼굴 인식을 위한 현재 접근법보다 더 우수한 결과를 보여주며, 특히 복잡한 작업에서 임베딩의 특정 부분에 초점을 맞추는 데 있어 인상적인 성능을 달성했다.

 

※ Multimodal Learning : 인간의 인지적 학습방법을 모방하여 다양한 형태의 데이터로부터 학습하는 방법

 

 

본 논문에서는 주의 메커니즘을 사용하여 RGB와 깊이 모달리티를 효과적으로 융합하는 새로운 방법들을 제시한다.

 

1. Feature-map Attention

  • LSTM 반복 학습을 사용하여 컨볼루션 층에서 생성된 융합된 특징 맵에 선택적으로 초점을 맞춤

 

2. Spatial Attention

  • 특징 맵 위의 공간 컨볼루션 정보에 선택적으로 집중

 

Main Contributions

  • RGB와 깊이 모달리티 양쪽에서 유용한 정보를 선택적으로 학습할 수 있는 새로운 멀티모달 융합 메커니즘을 RGB-D 얼굴 인식(FR)에 도입
  • 주의 기능 및 공간 메커니즘의 여러 변형에 대한 제거 실험을 수행하고, 두 모달리티의 주의 기반 융합에서 성능 향상을 입증
  • 제안된 방법은 여러 다른 방법들을 능가하여 두 공개 RGB-D 얼굴 데이터셋에 대한 새로운 최고 기록을 세움

 

 

II. Related Work

A. RGB-D Face Recognition Datasets and Their Benchmarks

  • 곡률 분석에 기반한 얼굴 검출 알고리즘을 제안한 VAP 데이터셋 사용
  • LBP, SIFT 기능을 조합하여 EURECOM RGB-D 얼굴 데이터베이스에 대한 기본 결과를 적용
  • IIITD RGB-D 데이터셋을 수집하고 HOG 특징을 사용
  • CP 알고리즘을 사용하여 BUAA Lock3DFace RGB-D 얼굴 데이터베이스를 개발

 

 

B. Traditional RGB-D Approaches

RGB 데이터의 주요 시각적 특도 맵과 깊이 데이터의 엔트로피 맵과 같은 다양한 특징을 사용하여 이미지 패치의 HOG 특징과 함께 융합하고 분류기에 입력한다.

  • RISE 및 ADM과 같은 향상된 특징 세트를 사용하여 접근 방식의 정확도를 개선
  • 공분산 행렬 표현을 사용하여 심도와 RGB 점수를 융합하는 방법으로 신원을 분류

 

 

C. Deep Learning Approaches

  • RGB-D 객체 인식을 위한 컨볼루셔널 재귀 신경망(CRNN)을 제안
  • 얼굴 검증 작업을 위한 RGB 및 깊이 이미지에 대한 Siamese CNN을 훈련
  • CNN 임베딩을 동시 학습하는 데 초점을 맞춘 깊은 학습 기술을 사용한 특징 융합

 

 

D. Attention in Images

이미지 이해에 효과적임이 입증되었으며, 기계 번역, 시각적 질문 응답, 객체 탐지, 의미론적 분할, 인물 재식별 등 다양한 작업에 널리 사용된다.

  • CNN과 통합될 수 있는 경량 모듈
  • LSTM 네트워크와 컨볼루션 특징을 사용하여 다양한 이미지 캡셔닝 작업에서 공간 정보를 활용
  • 다중 뷰 카메라에서 특정 공간-각도 특징에 대한 주의 가중치를 생성하기 위한 양방향 LSTM(BLSTM)을 사용

 

 

III. Method

 본 논문의 목표는 환경 조명과 얼굴 포즈의 변화에 더욱 강인한 정확한 얼굴 인식(FR) 방법을 개발하는 것으로, 이를 위해 Kinect Image에 포함된 RGB와 깊이 모달리티를 모두 사용하는 멀티모달 인식 방법을 제시한다. 두 가지 주의 메커니즘을 사용하여 두 모달리티를 융합하는 구조로 Figure 2와 같다.

 

※ Kinect Image : 키넥트 센서를 통해 캡처된 이미지로 단순한 2D 사진이 아니라, 색상 정보와 깊이 정보가 통합된 다차원 데이터

Network Flow

  1. RGB와 깊이 입력 : 컨볼루션 네트워크를 통해 처리
  2. 컨볼루션 특징 맵 생성 : 모달리티에서 추출된 특징은 컨볼루션 층을 통해 생성되고 결합
  3. 특징 맵 결합
  4. LSTM : 시퀀스 데이터로 처리
  5. 특징 맵 주의 메커니즘 : 특징 맵 주의 메커니즘으로 전달되어 중요한 특징에 주의를 기울임
  6. 주의력으로 향상된 특징 맵 : 주의 메커니즘이 적용된 후, 각 특징 맵은 강조
  7. 평균 풀링과 최대 풀링 : 특징 맵의 중요 부분을 강조하기 위해 공간적 주의 메커니즘이 적용
  8. 공간적 주의 메커니즘 : 가장 중요한 공간적 정보를 추출
  9. 정체성 결정 : 분류를 위해 완전 연결 층으로 피드되고, 정체성을 확인하기 위한 최종 예측을 생성

 

A. Preprocessing and Image Augmentation

 장면의 가까운 클리핑 평면과 먼 클리핑 평면(오렌지색 선)을 나타내는 두 깊이 값으로 결정하는 것으로 Figure 1(b)에서 나타낸 가까운 clipping planes와 먼 clipping planes는 각각 90번째 백분위수와 25번째 백분위수 사이의 깊이 값만을 유지하여 계산한다.

 

Flow

  • 카메라를 기준으로 너무 가까우거나 너무 먼 객체를 제거하는 clipping planes 설정
  • 남은 데이터는 동적 범위를 최대로 활용할 수 있도록 0에서 255 값 범위로 정규화
  • RGB 이미지와 사전 처리된 깊이 이미지는 dlib CNN 얼굴 추출 네트워크를 통과해 얼굴 영역만 포함한 이미지로 자름
  • 모델을 더욱 견고하게 만들기 위해 Table 1과 같이 이미지 회전, 반사, 아핀 변환 및 투시 변환 등의 기하학적 변환을 포함한 이미지 증강을 적용
  • 적용된 데이터셋의 크기를 4배로 증가시킴

 

※ clipping : 어떤 배열을 대상으로 하여 배열 내 모든 값들 중 특정한 범위 내에 속하는 것들은 그대로 살리고 범위 바깥에 속하는 것들은 범위 경계값으로 대체하는 기법

 

 

B. Network Architecture

 본 논문의 네트워크 아키텍처는 VGG 네트워크의 구조를 따라 RGB 및 깊이 모달리티에 대한 쌍둥이 컨볼루션 네트워크 유닛으로 구성되어 있다. VGGFace2 데이터 셋을 통해 pre-trained된 VGG 네트워크의 컨볼루션 특징 추출 부분을 사용하여 학습 과정을 가속화하고 RGB-D 데이터셋의 작은 크기를 극복한다. 깊이와 RGB 이미지는 모두 컨볼루션을 통해 특징 임베딩을 추출하며, 이후 네트워크는 주의 메커니즘을 통해 특징 임베딩의 중요 부분에 초점을 맞춘다. 주의 메커니즘은 Feature Map AttentionSpatial Attention라는 두 부분으로 나뉜다.

 

 

1. Feature-Map Attention

 네트워크가 분류 작업에 중요한 기여를 하는 특징 맵에 집중하도록 훈련하는 데 도움을 주는 것으로, LSTM 계층이 각 특징 맵을 조건부로 인코딩한 후, 밀집 계층을 통해 Attention Weight을 계산한다. RGB와 Depth 데이터에서 추출된 특징들을 연결하고, 이를 LSTM 계층에 입력하는 특징 으로 분리한다. LSTM은 이 정보를 인코딩하고 주의 가중치를 계산하면서 모든 맵의 맥락을 유지하고, 결과적으로 더 중요한 정보를 담고 있는 맵에 더 높은 주의 가중치를 부여하게 된다.

CNN 네트워크에서 추출된 특징 임베딩을 FRGB와 FDepth라 하고, Fconcat은 다음과 같이 정의된다.

 

 

수식 (1)

  • Fconcat ∈ RM × M × C
  • C = K + K, (C는 융합된 컨볼루션 특징 맵의 수)
  • M : 컨볼루션 특징 맵의 공간 크기
  • 시간적 또는 공간적 연속성을 갖는 데이터의 패턴을 학습을 위해 특징 값을 단일 벡터(Fpv)로 재구성
  • Fpv = RM^2 x 1

 

수식 (2), (3)

  • hi : LSTM 출력
  • θfm :다층 퍼셉트론의 출력
  • W0 : 주의 계층에서 학습된 가중치
  • b0 : 해당 바이어스
  • Wfm : 각 특징 맵에 대한 학습 가능한 주의 가중치

 

수식 (4)

  • 시그모이드 함수를 사용하여 [0, 1]로 정규화된 출력을 통해 Ffm 이 계산
  • Ffm : 특징 맵 주의로 정제된 특징들

 

 

2. Spatial Attention

 특징을 세련되게 다듬은 후, 네트워크는 임베딩의 공간 축에 대한 주의를 집중하는 기법으로, 이 모듈은 네트워크가 임베딩에서 가장 두드러진 특징을 식별하고 그 특징에 주의를 기울이는 데 도움을 준다. 특징 임베딩에서 가장 두드러진 정보를 얻기 위해, 우리는 특징 맵 축을 따라 평균 및 최대 풀링을 사용한다. 주의 가중치를 얻기 위해 평균 풀링된 Favg1과 최대 풀링된 Fmax1 특징을 1×1 크기의 커널과 1개의 특징 맵을 가진 컨볼루션 레이어로 전달하여 단일 가중치 계층으로 가중치를 계산한 후 시그모이드 활성화 함수를 적용한다.

 

 

수식 (5), (6)

  • Wspatial : 공간 주의 가중치
  • Favg1 : 평균 풀링
  • Fmax1 : 최대 풀링

 

수식 (7)

주의 모듈을 거친 최종 Fattention은 다음과 같다.

 

Module Values

 

IV. Experiments

A. Datasets

1) IIIT-D RGB-D

 IIT-D RGB-D 데이터셋에는 Microsoft Kinect를 사용하여 촬영된 106명의 대상자의 이미지가 640x480 해상도로 11개에서 254개까지 있다. 이 데이터셋은 5겹 교차 검증 프로토콜을 따르며, 실험에서는 각 대상자당 훈련용으로 4개, 테스트용으로 17개의 이미지를 사용했다.

 

 

2) CurtinFaces RGB-D

CurtinFaces RGB-D 데이터셋에는 52명의 대상자에 대한 5000개 이상의 이미지가 있으며, RGB와 깊이 모달리티 둘 다를 Microsoft Kinect로 촬영했다. 대상자별로 초기 3개의 이미지는 다양한 포즈를 취하며, 나머지 49개는 다른 포즈와 표정, 조명 변화를 포함하고 있다. 또한, 선글라스 착용이나 손으로 얼굴을 가리는 이미지도 포함되어 있다. 이 데이터셋은 특정 테스트 프로토콜을 따르며, 각 대상자당 18개의 이미지를 훈련용으로, 30개를 포즈 및 표정 변화가 있는 테스트 세트 1로, 그리고 39개를 표정과 조명 변화가 있는 테스트 세트 2로 구성한다.

 

 

B. Implementation

  • Conv Layer는 VGGFace2 데이터셋에서 가져온 가중치로 초기화
  • Adam optimizer를 사용하여 학습률을 0.00001로, 감소율은 0.9로 설정
  • Drop-out : 0.5, 세 노드의 크기는 각각 2048, 1024, 512로 정하고, 배치 크기는 20으로 그리드 검색을 통해 결정
  • Network Input : Image Augmentation이 적용돼 동기화 RGB 및 Depth 이미지
  • 마지막 완전 연결 계층은 데이터셋 클래스를 포함

 

 

C. Performance and Comparison

 

 

D. Ablation Experiments

요소를 하나씩 없애면서 해당 요소가 전체 시스템에 어떤 영향을 주는지 확인하는 분석 기법

 

 

1) Ablation with the Architecture modules

 두 모달리티의 효과적인 융합을 위해 컨볼루션 층 위에 두 가지 주의 모듈을 사용한다. 주의 모듈을 적용했을 때, 특징 맵 주의 모듈만 사용했을 경우 정확도가 1% 향상되었고, 공간 주의 모듈만 사용했을 때는 1.3% 향상되었다. 두 주의 메커니즘을 결합했을 때 가장 좋은 성능을 나타냈다.

 

 

2) Ablation within Attention modules

2-1) Feature-Map Attention + Dense Layer(Feature-map attentive feature maps 부분에 해당)

  • 모달리티에서 컨볼루션 특징 추출기로부터 추출된 피처-맵을 연결한 후 존재하는 피처-맵 수와 동일한 뉴런 수를 가진 밀집 계층을 사용
  • 각 뉴런은 각 맵에 대한 주의 가중치를 계산하는 임무를 담당

 

 

2-2) Feature-Map Attention + LSTM + Dense Attention Layer (Reshape 부분과 연결)

  • 주의 가중치가 밀집 계층을 사용하여 계산되는 인코딩된 형태로 피처 맵을 순환적으로 학습하기 위해 LSTM 계층을 추가
  • 하나와 두 개의 LSTM 계층이 거의 동일한 평균 성능을 제공
  • 반면 3개의 LSTM 계층과 BLSTM 네트워크 아키텍처에서는 성능이 감소됨
  • 낮은 계산 복잡성은 우리의 최종 솔루션에서 하나의 LSTM 계층 선택

 

 

2-3) Spatial Attention + Dense Layer(Avg Pool과 Max Pool 다음 단계에서 적용)

  • 처 임베딩의 공간 차원과 동일한 크기의 밀집 계층을 사용
  • 모든 뉴런은 피처 표현의 공간 요소에 대한 주의 가중치를 계산하려고 시도

 

 

2-4) Spatial Attention + Convolution Layer(주의 가중치를 계산하는 Conv 부분)

  • 피처 표현의 각 공간 요소에 대한 주의 가중치를 얻기 위해 커널 크기가 1이고 필터 맵이 1개인 컨볼루션 계층을 사용

 

 

E. Analysis of Embedding with Attention

Figure 4는 주의 메커니즘이 적용되기 전과 후의 임베딩이 만들어낸 특징 공간을 보여준다.

  • (I), (II)는 각각 독립적인 RGB와 Depth 임베딩을 나타냄
  • (III)는 주의 메커니즘 후의 다중 모달 임베딩

 

 

V. Conclusion And Future Work

 RGB와 깊이 모달리티를 통합하기 위한 주의 기반 네트워크를 통해 RGB-D 이미지를 얼굴 인식에 활용하였다. 이 방법은 IIIT-D RGB-D와 CurtinFaces 데이터셋에서 SOTA 모델을 만들었다. 또한, 개별 구성 요소들이 최종 성능에 미치는 영향을 파악하기 위한 광범위한 차단 실험을 실시했고, 앞으로는 열, 음성, 생체 신호와 같은 다른 모달리티를 사용한 성능 탐구와 RGB 이미지로부터 깊이 이미지를 생성하여 얼굴 인식 기능을 강화하는 방안을 탐구할 계획이다.