본 글은 네이버부스트코스트 "컴퓨터 비전의 모든 것" 강의를 정리한 내용입니다.
CV
- CV란? : Computer Vision의 약자, 시각 지각 능력을 컴퓨터 시스템으로 구현하는 것
Image Classification
- Imagae Classification : 주어진 입력 이미지를 특정 클래스로 분류하는 task
- Nearest Neighbor : 데이터가 입력으로 들어왔을 때, 해당 데이터 근방에 포진하고 있는 이웃 데이터의 클래스 정보를 기반으로 데이터의 클래스를 분류
- CNN : 하나의 특징을 추출하기 위해 이미지의 모든 픽셀을 고려하는 Fully Connected Layer가 아닌 국부적인 영역에 대한 연결만 고려한 Locally Connected Layer를 바탕으로 구성
--> Overfitting 방지, crop된 이미지도 제대로 분류할 수 있게됨
-CNN기반 모델들-
AlexNet
- LeNet에서 motivation
- ReLU + Dropout 기술이 새로 쓰임
- GPU두개를 병렬 연결하고 일부만 cross된 NeuralNet 사용
- LPN 사용하였지만 현재 모델들에서는 Batch Normalization을 대신 사용함.
VGGNet
- 16 & 19 layers
- 3x3 conv filters
- 더 깊고 간단해진 NeuralNet
- fewer parameters
Data Augmentation
- 이미지기반 Data Augmentation : 이미지 크롭(crop), 기하학적/색상/밝기 변경, 회전 등을 사용하여 Augmentaion을 진행함. opencv라이브러리에 잘 구현되어있음.
- Real data distribution과의 차이를 완화시킬 수 있음.