[컴퓨터 비전] Object Detection - R-CNN

Flash·2022년 4월 5일
0
post-thumbnail

[컴퓨터 비전] Object Detection #1


[출처] https://ko.wikipedia.org/wiki/%EA%B0%9D%EC%B2%B4_%ED%83%90%EC%A7%80

학교에서 캡스톤 디자인 프로젝트를 진행하는 데 객체 탐지를 바탕으로 한 동영상 하이라이트 추출을 우리 팀의 주제로 삼았다.

주제를 보다 잘 이해하기 위해서 객체 탐지, 컴퓨터 비전에 대해서 여러 가지 자료들을 찾아보며 학습했다.

컴퓨터 비전은 현재 아주 핫 한 이슈인 자율주행 기술에서 활용되는 중요한 기술이다.

컴퓨터 비전의 중요한 개념인 객체 탐지는 이미지 안에서 원하는 객체를 배경과 구분해 식별하는 자동화 기법이다.

올바른 객체 탐지를 학 위해서 'Bounding Box'로 불리는 박스를 설정해 객체를 나타낸다.

경계 박스의 예시는 가장 위에 나온 사진에서 볼 수 있다.

객체 탐지에는
1. 영역 제안을 하는 경우: R-CNN의 종류들
2. 정해진 위치와 정해진 크기의 객체만 찾는 경우 : YOLO 등
의 큰 두 가지 카테고리를 정의할 수 있다.


영역 제안하는 기술

R-CNN, Fast R-CNN은 Selective Search를 통해서 Region Proposal을 수행한다.

Faster R-CNN은 RPN(Region Proposal Network)를 통해서 Region Proposal을 수행한다.

위의 두 가지는 CPU를 통해서 해당 과정을 진행하고 Faster R-CNN은 RPN의 과정을 GPU에서 수행하기 때문에 속도에서 큰 상향을 얻어낼 수 있었다.

RPN은 학습이 일어나고 난 뒤 Feature map을 보고 물체가 있을 법한 위치를 예측한다. 이 이후의 과정은 Fast R-CNN에서 사용하는 detection network 구조를 사용한다.

여기서는 classification과 regression이 수행되며 end-to-end의 구조다.
[이미지 출처] https://www.arxiv-vanity.com/papers/1908.03673/

Region Proposal은 물체가 있을 법한 위치를 프레임 내에서 찾는 것이다.

이 방법 중 하나로 슬라이딩 윈도우가 있다. 슬라이딩 윈도우는 다양한 사이즈의 윈도우가 이미지를 전부 탐색하며 객체를 찾는 방법이다.

그 다음은 선택적 탐색이 있다. 이 방법은 cpu에서 수행되며 인접한 영역끼리 유사성을 측정해 큰 영역으로 통합해 나가는 방법이다.


객체 감지 알고리즘에서 중요한 개념 중 하나로 IoU가 있다.

IoU(Intersection over Union)는 예측한 경계박스와 레이블 된 경계박스 사이의 겹치는 비율을 의미한다.
IoU를 사용한 NMS(Non Maximum Suppression) 방식으로 경계 박스를 줄여나가는 작업이 필요하다. 객체 하나에는 하나의 경계박스만 할당되어야 하기 때문이다.

NMS는 여러 개의 경계박스가 하나의 객체에 겹쳐 있는 경우에 이를 하나로 합치는데, IoU가 특정 임계점을 넘는 경우에 박스를 제거하는 방식이다.
[이미지 출처] https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c

profile
Whiplash We Flash

0개의 댓글