1. Introduction
이 논문은 기존의 FER 대조 학습이 레이블링된 데이터에 의존하는 한계를 극복하기 위해, 비레이블 Reaction Mashup 비디오를 활용한 새로운 데이터셋(RMset)과 주의 메커니즘이 통합된 준지도 대조 학습 프레임워크(RMFER)를 제안하여 FER 성능을 향상시키는 데 기여하고 있다.
2.1. Deep Facial Expression Recognition
2.2. Contrastive Learning
-
핵심 개념: 대조 학습은 데이터 증강(augmentation)을 통해 원본 이미지와 증강된 이미지 쌍을 긍정 쌍(positive pair)으로, 다른 이미지들을 부정 쌍(negative pair)으로 간주하여 모델이 의미 있는 표현(representation)을 학습하도록 유도한다. 즉, 긍정 쌍은 가깝게, 부정 쌍은 멀게 매핑되도록 학습한다.
-
주요 대조 학습 방법론:
- SimCLR [Chen et al., 2020]:
- 데이터 증강(augmentation)이 의미론적 정보(semantic information)를 변경하지 않는다는 전제하에 작동한다.
- 하나의 앵커(anchor) 이미지에 여러 증강을 적용하여 긍정 샘플(positive samples)을 만들고, 다른 이미지들을 부정 샘플(negative samples)로 사용한다.
- 앵커와 긍정/부정 샘플의 임베딩(embedding)은 프로젝션 헤드(projection head)를 거쳐 NT-Xent Loss [Sohn, 2016]를 사용하여 대조 학습을 수행한다.
- MoCo [He et al., 2020] (Momentum Contrast):
- 대조 학습을 동적 사전(dynamic dictionary) 구축 관점에서 접근한다.
- 사전은 "대규모(large scale)"와 "일관성(consistency)"이라는 두 가지 특성을 가져야 한다고 제안한다.
- 큐(queue)를 사용하여 특징의 키 값만 저장함으로써 대규모 사전을 구축하고, 모멘텀 업데이트(momentum update)를 통해 느리게 진행되는 인코더를 사용하여 일관성을 확보한다.
- BYOL [Grill et al., 2020] (Bootstrap Your Own Latent):
- 부정 쌍(negative pairs) 없이 대조 학습을 수행하는 방법을 제안한다.
- "온라인 네트워크(online network)"와 "타겟 네트워크(target network)"라는 두 개의 네트워크를 사용하며, 온라인 네트워크가 동일 이미지의 다른 증강본에 대한 타겟 네트워크의 표현을 예측하도록 학습한다.
- 이를 통해 collapse 문제(모든 입력에 대해 동일한 출력을 내는 문제)를 피하면서 부정 쌍 없이 대조 학습이 가능함을 보여주었다.
- Simsiam [Chen and He, 2021] (Simple Siamese):
- BYOL에서 momentum update보다 "stop gradient"가 collapse 문제를 피하는 데 더 결정적임을 밝혀냈다.
- 긍정 쌍만을 사용하여 대조 학습을 성공적으로 수행한다.
- 비디오 표현 학습으로의 확장 Lee et al., 2020, Lee et al., 2018]: 대조 학습이 정지 이미지뿐만 아니라 비디오 데이터의 표현 학습에도 효과적으로 확장될 수 있음을 보여준다.
3. Reaction Mashup Dataset (RMset)

-
RMset의 정의 및 목적:
- Reaction Mashup (RM) 비디오 활용: RMset은 여러 사람이 동일한 영상(trigger film)을 시청하며 각기 다른 화면 분할에서 동시에 반응하는 모습을 담은 RM 비디오로부터 생성된 데이터셋이다.
- 비Labled 데이터셋 구축: 기존 FER 데이터셋은 어노테이션(레이블링)의 주관성 및 표정의 미묘함 때문에 데이터 수집에 어려움이 있었다. RMset은 이러한 한계를 극복하기 위해 대규모의 비Labled (unlabeled) 데이터를 제공하여 semi-supervised contrastive learning에 활용하는 것을 목표로 한다.
- 표정 유사성에 대한 가정: RMset은 특정 비디오를 시청할 때, 가까운 시간대의 다른 인물들의 표정은 유사할 가능성이 높고 (positive), 같은 인물이라도 시간적으로 멀리 떨어진 시점의 표정은 다를 가능성이 높다 (negative)는 핵심 가정을 기반으로 한다. 이러한 가설은 대조 학습(contrastive learning)에서 긍정/부정 샘플을 구성하는 데 사용된다.
-
RMset 생성 방법론:
- 비디오 수집: YouTube에서 "sad reaction mashup", "try not to laugh"와 같은 특정 키워드를 사용하여 RM 비디오를 수집했다. 이미지 노이즈를 줄이기 위해 1080p 이상의 고해상도 비디오만 선택했다. 총 216개의 비디오에서 약 314만 프레임, 3,485명의 인물, 4,567만 개의 얼굴 이미지를 확보했다.
- 전처리 4단계:
- 1단계: 제거 영역 선택 (Removal Area Selection): RM 비디오에 포함된 원본 trigger film이 얼굴 감지 알고리즘을 방해할 수 있으므로, 이 영역의 픽셀을 수동으로 식별하여 제거한다.
- 2단계: 얼굴 ID 할당 (Face ID Assignment): 첫 프레임에서 사전 학습된 얼굴 감지기 [10]로 얼굴을 감지하고, 감지되지 않은 얼굴은 수동으로 경계 상자를 표시한다. 이후 감지된 모든 얼굴에 순서대로 ID를 할당한다.
- 3단계: 얼굴 추적 (Face Tracking): 이후 프레임의 얼굴은 첫 프레임의 얼굴을 기준으로 추적된다. 현재 프레임에서 감지된 경계 상자와 첫 프레임의 경계 상자 간의 IOU(Intersection Over Union) 점수를 비교하여 얼굴 ID를 할당한다. (얼굴 감지기가 놓치거나 새로운 인물이 중간에 나타나는 드문 경우는 무시한다.)
- 4단계: 이미지 변환 (Image Transformation): RM 비디오의 얼굴 이미지 패치들은 폭/높이 비율이 다를 수 있어 FER 성능 저하를 야기할 수 있다. 따라서 얼굴 영역의 높이(hf)를 기준으로 폭(wf)을 Δw=0.31×wf만큼 조절하여 w=wf+Δw로 만들고, 이를 통해 hf/wf 비율이 약 1.31이 되도록 조정한다. 이는 AffectNet 데이터셋과 유사한 비율로, 표준화된 얼굴 이미지를 얻기 위함이다. 마지막으로 이미지 픽셀 값을 정규화한다.
4. The proposed method: RMFER

-
RMFER의 목표: FER은 RGB 이미지 x를 해당 얼굴 표정 y로 분류하는 태스크이다.
- 입력 이미지 x는 R260×260×3 형태의 RGB 이미지이다. 이는 가로, 세로 260픽셀의 3채널(RGB) 이미지를 의미한다.
- 출력 y는 RE×1 형태의 얼굴 표정 벡터이다. 여기서 E는 미리 정의된 표정 카테고리(예: 중립, 행복, 슬픔 등)의 개수를 나타낸다.
-
핵심 구성 요소: RMFER 프레임워크는 이미지에서 특징 벡터를 추출하는 Feature extractor fFeat와 추출된 특징을 기반으로 표정을 분류하는 Classification network fFER로 구성된다.
- Feature extractor (fFeat:X→F): 입력 이미지 x∈X를 Rndim×1 차원의 특징 벡터 f∈F로 변환한다. 여기서 ndim은 특징 차원의 수이다.
- Classification network (fFER:F→Y): 특징 벡터 f를 최종 표정 출력 y∈Y로 매핑한다. 즉, 전체 분류 네트워크는 fFER∘fFeat로 표현된다.
-
세 가지 모듈: RMFER은 세 가지 개별 모듈을 통합하여 학습을 수행한다.
- Classification module: 지도 학습(supervised learning) 방식으로 얼굴 표정을 분류하는 역할을 한다. 이는 벤치마크 데이터셋의 레이블 정보를 사용하여 fFeat와 fFER를 훈련시킨다.
- Attention module: 배치(batch) 내 샘플들 간의 유사성(inter-sample similarity)을 학습한다. 이 모듈은 특징 벡터 간의 코사인 유사도를 기반으로 어텐션 행렬을 생성하고, 이를 통해 샘플 간의 표현 유사도를 측정한다. (자세한 내용은 Inter-sample Attention Learning (IAL) 섹션에서 다룸)
- Contrastive module: RMset이라는 레이블 없는 데이터셋을 활용하여 특징 학습을 강화한다. 이 모듈은 어텐션 기반으로 개선된 긍정(positive) 및 부정(negative) 샘플 쌍을 구성하고, 콘트라스티브 학습을 통해 특징 공간을 풍부하게 만든다.
-
학습 과정: RMFER의 학습은 두 단계로 나뉜다.
- 초기 몇 Epoch: 첫 번째 단계에서는 벤치마크 데이터셋 {xib,yib}i=1N를 사용하여 Classification module과 Attention module을 훈련한다. 이 단계에서 fFeat는 분류에 적합한 표정 특징 f와 샘플 간 유사도를 학습한다.
- 이후 단계: 초기 학습 후, Contrastive module을 추가하여 학습 프로세스를 강화한다. 이 모듈은 RMset {xiRM}i=1M을 활용하여 fFeat의 특징 공간 F를 더욱 풍부하게 만든다.
-
데이터셋 활용: RMFER은 두 가지 종류의 데이터셋을 사용한다.
- 벤치마크 데이터셋 ({xib,yib}i=1N): 레이블이 있는 데이터셋으로, Classification module과 Attention module의 지도 학습에 사용된다.
- RMset ({xiRM}i=1M): 본 논문에서 수집한 레이블 없는 Reaction Mashup 비디오 데이터셋으로, Contrastive module의 준지도 학습에 사용된다. 일반적으로 RMset의 샘플 수(M)는 벤치마크 데이터셋의 샘플 수(N)보다 훨씬 많다(M≫N).
4.1. Inter-sample Attention Learning (IAL)
Inter-sample Attention Learning (IAL)은 RMFER 프레임워크의 세 가지 핵심 모듈 중 하나로, 초기 학습 단계에서 피처 추출기 fFeat가 입력 이미지와 표정 레이블 간의 매핑을 학습하는 동시에, 배치 내 샘플들 간의 쌍별(pairwise) 유사도를 학습하도록 돕는 과정이다.
-
목표:
- 입력 이미지 x를 해당 표정 레이블 y로 매핑하는 방법을 학습한다.
- 동시에, 배치 내 샘플들의 피처 벡터 f 간의 유사성 (ajk)을 학습한다. 즉, 어떤 샘플들이 서로 유사한 표정을 가지고 있는지를 어텐션 메커니즘을 통해 파악한다.
-
학습 데이터: 이 단계에서는 레이블이 있는 벤치마크 데이터셋 {xib,yib}i=1N만을 활용한다. 여기서 N은 벤치마크 데이터셋의 샘플 수이다.
-
Batch-wise Cosine Similarity-based Processing:
- 피처 변환 (zi=H(fi)):
- 먼저, 입력 이미지 x는 피처 추출 네트워크 fFeat를 거쳐 피처 벡터 f로 변환된다.
- 이후 f는 프로젝션 헤드 H를 통과하여 zi라는 변환된 피처 벡터가 된다. 이는 SimCLR와 같이 원본 피처를 다른 차원의 공간으로 투영하여 유사성 학습에 더 적합하도록 만드는 과정이다.
- 코사인 유사도 행렬 (S) 생성:
- 동일한 배치(B개 샘플) 내의 모든 zi 벡터들에 대해 쌍별 코사인 유사도를 계산하여 B×B 크기의 유사도 행렬 S를 만든다.
- Self-masking: 이 과정에서 S의 대각 요소 (sii, 즉 자기 자신과의 유사도)는 10−6과 같은 매우 작은 값으로 설정된다. 이는 모델이 자기 자신의 피처(self-attention)가 아닌 다른 샘플들의 피처(inter-sample attention)에 더 집중하도록 강제하는 목적을 가진다.
- 수식 (1):
sij={∥zi∥∥zj∥zi⋅zj,10−6,if i=jotherwise
- 어텐션 행렬 (A) 생성:
- S 행렬의 각 행에 스케일 값 τ로 나눈 후 소프트맥스(softmax) 함수를 적용하여 어텐션 행렬 A를 생성한다.
- aij는 i번째 샘플이 j번째 샘플에 할당하는 어텐션 가중치를 의미하며, 배치 내 다른 모든 샘플에 대한 상대적 유사성을 나타낸다.
- 수식 (2):
aij=∑kexp(sik/τ)exp(sij/τ)
- 어텐션 피처 벡터 (vi) 생성:
- i번째 샘플의 어텐션 피처 벡터 vi는 i번째 샘플과 j번째 샘플 간의 어텐션 가중치 aij와 j번째 샘플의 원본 피처 벡터 fj를 가중 합산하여 얻는다.
- 이는 i번째 샘플의 피처 표현에 배치 내 다른 모든 샘플들의 정보를 (어텐션 가중치에 따라) 통합하는 과정이다.
- 수식 (3):
vi=∑j=1Baij×fj
- IAL 분류기 (fIAL): 생성된 어텐션 피처 벡터 vi는 fIAL이라는 완전 연결 계층(fully connected layer)을 통해 최종적으로 표정 레이블 y로 매핑된다. fIAL은 fFER와 동일한 아키텍처를 갖는다.
-
학습 원리:
- i번째 샘플과 j번째 샘플이 유사하다고 가정하면 (예: 동일한 표정 레이블을 가지는 경우), aij 값은 높게 학습되고 j번째 샘플의 피처 fj는 vi를 표현하는 데 더 큰 영향을 미치게 된다.
- 반대로, i번째 샘플과 j번째 샘플이 유사하지 않다면, aij 값은 낮게 학습된다.
- 이러한 방식으로 모델은 명시적인 지도 학습 없이도 샘플들 간의 내재된 표정 유사성을 어텐션 메커니즘을 통해 학습한다.
-
손실 함수 (Lpre): IAL의 전체 손실은 다음과 같이 구성된다.
- 수식 (4):
Lpre=LFER(fFeat,fFER)+λ1LIAL(fFeat,fIAL)
- LFER: fFER 분류기의 예측과 정답 레이블 y 간의 교차 엔트로피(cross-entropy) 손실이다. 이는 기본적인 표정 분류 성능을 확보하는 역할을 한다.
- 수식 (5):
LFER(fFeat,fFER)=−∑i=1Nyi⋅log(fFER(fFeat(xi)))
- LIAL: fIAL 분류기의 예측(fIAL(v^i))과 정답 레이블 y 간의 교차 엔트로피 손실이다. 이는 어텐션 피처 vi가 표정 정보를 잘 담도록 학습시킨다.
- 수식 (6):
LIAL(fFeat,fIAL)=−∑i=1Nyi⋅log(fIAL(v^i))
- λ1: LFER와 LIAL 간의 균형을 맞추는 하이퍼파라미터이다.
이 과정을 통해 fFeat는 단순한 분류뿐만 아니라, 샘플 간의 표정 유사성을 인지하고 이를 피처 공간에 반영하는 능력을 초기 단계부터 학습하게 된다.
4.2. Attention-based contrastive learning (ACL)
5. Experiment
5.1. Experimental Settings
5.2. Results and Discussion
5.3 Ablation Study
- Self-masking Softmax의 효과 검증:
- 목적: IAL(Inter-sample Attention Learning) 모듈에서 제안된 'self-masking softmax' 기법이 일반적인 softmax 함수에 비해 얼마나 효과적인지 평가하는 것이 목적이다. Self-masking softmax는 자기 자신과의 어텐션 값을 0에 가깝게 만들어 모델이 배치 내의 다른 샘플 간의 유사성에 집중하도록 강제한다 (4.1절의 (1)번 수식 참고).
- 결과: Table 3에서 'Ours w/o SM'과 'Ours w/o ACL, SM' 라인의 결과를 통해 self-masking softmax를 사용했을 때(‘Ours’ 및 ‘Ours w/o ACL’) 성능이 일관되게 향상됨을 보여준다. 이는 self-masking softmax가 inter-sample attention 학습에 긍정적인 영향을 미쳐 표현 분류 성능을 높이는 데 기여함을 시사한다.
- RMset 크기의 영향 분석:
- 목적: 제안된 RMset(Reaction Mashup dataset)의 양이 ACL(Attention-based Contrastive Learning)의 성능에 어떤 영향을 미치는지 검증하는 것이 목적이다.
- 결과: Table 4에서 RMset의 사용 비율을 0%, 50%, 100%로 늘려가며 성능을 측정했다. 결과는 RMset의 양이 많아질수록 AffectNet과 RAF-DB의 7가지 감정 및 8가지 감정 인식 성능이 일관되게 향상됨을 보여준다. 이는 RMset이 레이블 없는 데이터임에도 불구하고 모델의 특징 학습 능력(feature learning ability)을 효과적으로 강화함을 입증하며, 데이터셋 확장의 용이성이 추가적인 성능 향상으로 이어질 수 있음을 시사한다.