Computer Vision - Object Detection(1)

나라마야·2023년 7월 20일
0

Computer Vision

목록 보기
1/10

컴퓨터 비전 분야는 크게 이미지 분류, 객체 탐지, 의미 체계 구분으로 나눌 수 있다고 필자는 생각합니다.

이미지 분류는 이미지 안의 객체의 유형에 따라 이미지를 분류하는 겁니다.
객체 탐지는 이미지 안의 개별 객체를 분류하고, 경계 상자를 사용해 그 객체의 위치를 식별합니다.
의미 체계 구분은 이미지의 개별 픽셀이 속한 객체에 따라 분류합니다.

이 밖에도 이미지에 표시된 장면을 요약하고 설명하는 이미지 분석과 이미지에서 사람의 얼굴을 찾는 특수한 형태의 객체 탐지인 얼굴 감지, 이미지 안의 텍스트를 검색하고 읽는 기술인 OCR(광학 문자 인식) 등이 있습니다.

필자는 컴퓨터 비전 분야 중 하나인 객체 탐지를 설명하겠습니다.

객체 탐지란?

참고가 많이 된 wididocs 사이트, One-stage object detection

객체 탐지를 이미지 분류와 다른 점을 보여주는 사진입니다.

좌측이 사진속 개를 보고 사진을 개로 분류한 것이고, 우측이 사진속 개를 경계 박스로 위치도 보여줍니다. 이처럼 객체 탐지는 기존 이미지 분류보다 더 발전 되어 이미지 속 여러 개체를 찾아 라벨을 붙이고 위치를 찾습니다.

우리의 개체 탐지 모델은 경계 상자를 예측합니다. 각 경계 상자는 발견한 각 객체당 하나씩 지정됩니다.

이미지 분류의 애매함

이미지 분류는 이미지를 입력 받아 클래스에 대한 확률 분포인 단일 출력을 생성합니다. 이는 이미지에 있는 내용을 전체적으로 요약한 것이라 이미지 내에 관심 대상이 여러 개인 경우 제대로 작동하지 않습니다.

다음 이미지에서 분류기는 정확하게 개다! 고양이다! 라고 구분할 수 없습니다.

이미지 분류보다 더 정확한 객체 탐지

이미지 분류와 다르게 객체 탐지 모델은 각 객체의 경계 상자를 예측해 객체 개별의 위치를 알려줍니다.

이미지 분류에서는 애매한 2개의 내용에 대해 애매한 결과를 보여주지만, 객체 탐지는 경계 상자 내부의 클래스를 분류하는 데 더 집중할 수 있고, 외부의 모든 클래스는 무시하여 모델은 개별 객체에 대해 더 확실한 예측을 제공할 수 있습니다.

---(수정 중)--

객체 탐지 모델의 출력

객체 탐지의 까다로움

딥러닝 기반 객체 탐지 모델의 구성

객체 탐지 모델은 어떤 구조로 되어있는가에 따라 one-stage 모델과 two-stage 모델로 나뉘어 집니다.

profile
언제나 나 자신에게 되물어 보기. So What?

0개의 댓글