토이 프로젝트 <파리 올림픽 경기 영상 속 선수 식별 및 정보 제공> 프로젝트를 진행하면서, 영상 내 선수 이외의 심판, 관중과 같은 사람들을 선수로 잘못 매칭하는 현상이 빈번하게 발생하였다. 이러한 현상이 Hard Negative Mining과 관련이 있다고 보고, 이에 대해 자세히 알아볼 필요성을 느끼게 되었다.
우리가 input으로 넣은 경기 영상 안에는, 우리가 detect하고 싶은 선수들 이외에도 감독, 심판, 관중, 경기장 관리 직원 등 원하는 객체의 데이터가 background 데이터보다 월등히 적은 경우가 대부분이다. 이러한 상황에서 우리는 클래스 불균형을 겪게 되는데, 이 때문에 학습이 잘 되지 않는 것을 방지하고자 진행하는 것이 'Hard Negative Mining'이다.
네트워크 입장에서는 영상에서 조그만 patch size의 사람 얼굴을 찾아야 하는데, 비슷한 크기의 배경 patch와 사람 얼굴 patch를 구분해야 함. 하지만 보통 배경 패치가 더 많기 때문에 sampling 작업 필요.
: 유사하게 보이지만 실제로는 다른 카테고리에 속하는 데이터 샘플
모델 입장에서 보면 해당 샘플에 대해 Negative(아니다)라고 해야 하는데, Confidence가 높게 나오는 상황.


대조학습에서는 '앵커', '양성' 샘플, '음성' 샘플들 간의 관계를 이용해 특징 공간에서의 거리를 조절하며 학습한다. Hard Negative는 여기서 '음성' 샘플 중에서도, 'Anchor'에 가깝게 인코딩되어 있어 모델이 분별해내기 어려운 샘플이다.
ex. 이미지-텍스트 검색(Image-Text Retrieval), 시간적 행동 위치 지정(Temporal Action Localization) 등 다양한 시각적 이해 작업의 성능 개선에 기여

Hard Negative Mining 전

Hard Negative Mining 후
노란 선: 정답
초록 선: True Positive
빨간 선: False Positive
"anchor와 너무 다르지도 않으면서 너무 비슷하지도 않은, 적당히 주변에 있는" hard negative를 사용할 때 결과적으로 성능 향상을 이끌어낼 수 있다.
— http://dmqm.korea.ac.kr/activity/seminar/308
Wang, X., Guo, C., & Feng, C. (2023). Revisiting Hard Negative Mining in Contrastive Learning for Visual Understanding. Electronics, 12(23), 4884. https://doi.org/10.3390/electronics12234884
Chuang, J. J., et al. (2020). Contrastive Learning with Hard Negative Samples. arXiv preprint arXiv:2010.04592. Retrieved from https://arxiv.org/abs/2010.04592
NeurIPS. (2020). Hard Negative Mixing for Contrastive Learning. Retrieved from https://proceedings.neurips.cc/paper/2020/file/f7cade80b7cc92b991cf4d2806d6bd78-Paper.pdf