Contrastive Learning with hard negative samples

이두현·2024년 3월 17일
0

abstract

contrastive learning 을 위한 좋은 negative sample 선정법?

hard negative sample 이 좋다 (anchor point에서 구분하기 힘든 point들)

  • unsupervised 유지 : negative sampling 전략에 익숙해지지 못하도록
  • hardness를 결정할 수 있는 negative sampling 전략을 소개

intro

contrastive learning 의 image 분야에서 success

  • unsupervised contrastive learning > supervised pre-training

구성요소 : positive pairs, negative pairs

  • positive pairs는 가까이, negative pairs는 멀리
  • positive sampling에 대한 연구는 많이 이뤄짐 (jittering, random cropping, 등.. )
  • negative pairs에 대한 선정 방법은 많이 연구되지 않음
    • 단순 uniform sampling 방식

negative sampling 방법 제안 + 제안된 방식이 마주친 challenge

1) true distribution 분포가 없다

  • positive unlabeled learning 사용

2) 효율적인 sampling strategy 필요

contributions

1) suggest hard negative sampling method replacing simple uniform random sampling with computationally efficent sampling method

2) performance measure on downstream tasks

setup

embedding 해서 feature 영역으로 보내기

NCE (noise contrastive estimation) objective 수식적으로 표시

Hard negative sampling

무엇이 좋은 negative sample 인가?

1) true negative 를 샘플: x와 다른 label을 가진 샘플 찾자

2) 가장 유용한 negative sample은 embedding이 anchor오 비슷하다고 판단되는 것들이다

  • 이미 멀리 떨어져 있다고 판단되는 것들은 negative sample로써 크게 효용이 없다
  • hardness 로 표현

unsupervised contrastive learning에서는 supervision이 없으므로 1번을 정확히 만족하기는 불가능하다

제안한 방식의 trade-off

→ 2번에서 hard 할수록 그 대상이 false negative 일 경우 받게 되는 손해가 커지지만 성공할 경우 embedding space 차원에서 가장 많은 학습을 할 수 있다는 의미

proposed method

negative sample을 뽑을 distribution q를 다음과 같이 정의

위에서 설명한 두 principle과 수식 대응

1) h(x) ≠ h(x-) 는 (x, x-) 가 서로다른 latent class에 속할 것을 강제함

2) 파라미터 beta는 x-가 x에 inner product 값으로 얼마나 가까울 것인지 결정함

위의 principle들은 모두 반영했지만 여기서 어떻게 effective sample?

  • PU learning viewpoint
  • negative sampling distribution을 원래 distribution과 positive sampling distribution 로 표현해서 tractable하게 만듦
  • q, q+ 에 대해 이미 알고있는 distribution p 에 대한 importance sampling 전략 + Monte carlo

strength

  • dataset modality 가 다양하다
  • computationally efficient sampling
  • harder sample이 주는 효과 section 6 ablation study

weakness

  • Imagenet-1k and Imagenet-100 과 같은 큰 데이터셋에서 실험이 수행되지 않음
  • hard negative sample 로부터 얻는 improved learning signal과 false negative 사이의 trade-off를 다른 파라미터를 도입해 조절한다 것이 framework 성능에 불안정성을 추가한다.
profile
0100101

0개의 댓글