1. 컴퓨터 비전 태스트 '상상'해 보기
2. 다층 퍼셉트론(Multi-Layer Perceptron) 구조 복습하기
3. CNN 하나씩 이해하기 (1) 1-Channel Convolution
4. CNN 하나씩 이해하기 (2) 3-Channel Convolution
5. CNN 하나씩 이해하기 (3) Pooling
6. 심화된 CNN 구조
7. Transfer Learning 이해하기
8. Object Detection
9. Segmentation
Q. 이미지 데이터를 분석한다는 의미는 무엇인가요?
Input된 3차원의 숫자 덩어리에 숨겨진 패턴을 찾는 것
Q. 이미지의 픽셀이 가진 의미는 무엇에 의해 결정되나요?
주변 픽셀들과의 관계, 유사성(같다, 다르다)에 의해 결정된다.
Q. 인간이 이미지를 인식하는 방법과 컴퓨터가 이미지를 인식하는 방법의 차이를 설명해 보세요.
인간이 이미지를 인식할 때는 반사된 빛의 일부가 눈에 입력으로 들어오면 눈의 세포를 통해 빛의 신호가 전기 신호로 변환되어 뇌로 전달됩니다. 그 후 뇌에서 이미지가 출력됩니다.
반면 컴퓨터는 이미지를 숫자로 인식합니다. 숫자가 입력으로 컴퓨터에 주어지면 컴퓨터의 연산 장치로 연산이 처리되고 결과를 출력합니다.
Q. 이미지 속의 정보는 어떤 특징을 가지고 있나요?
이미지 데이터 안의 정보는 하나의 픽셀 자체가 아닌 주변의 여러 픽셀과의 관계를 통해서 드러납니다. 특정 픽셀과 주변 픽셀과 유사성을 통해 이미지의 색, 형태, 질감 등을 파악할 수 있습니다.
Q. 컴퓨터 비전의 각 태스크는 어떻게 구분할 수 있나요?
컴퓨터 비전의 태스크는 Single Object인지 Multiple Object인지에 따라 구분할 수 있습니다. Single Object를 다루는 태스크에는 Classification과 Localization이 있고, Multiple Object를 다루는 태스크는 Object Detection과 Instance Segmentation이 있습니다.
Q. Classification과 Localization를 설명해 보세요.
일단 둘 다 single object 대상으로
Classification : 분류태스크 : 1개의 대상(object)이 무엇인지(class) 찾아내는 태스크
Localization : 특정 object의 위치를 찾아내는 태스크 (Bonding(B)_Box 이용)
Q. Object Detection과 Segmentation을 설명해 보세요.
일단 둘 다 Multiple objects 대상으로
Object Detection ( Bounding Box Regression (Localization) + Multi-Labeled Classification)
: B_Box 안 에 있는 것들이 무엇인지 (확률까지) 지정해주는 작업
즉, Bounding Box로 위치를 지정하고, 각 Bounding Box 안의 obejct를 classification을 하는 작업
Segmentation
: 픽셀 단위로 분할하여 의미를 찾는 작업
예) 여러 양을 하나의 sheep으로 B_Box 처리
(= Classification + Localization 결합한 태스크로서, Object Detection이 아님)
즉,
Segmentation은 이미지를 픽셀 단위로 분해하고
픽셀의 class를 분류하는 Semantic Segmentation와
픽셀이 어떤 개별 객체(개체, Instance)로 구분되는지 분류하는 Instance Segmentation로 구분할 수 있습니다.