Segmentation
- Semantic Segmentation : 이미지에 포함된 모든 픽셀을 예측
- Classification + Localization : 이미지 분류와 객체 위치 파악 두 가지 작업을 동시에 수행
- Object Detect : 객체만 탐지
- lastance Segmentation : 이미지 내의 각 개별 객체를 픽셀 단위로 구분하는 작업을 의미
- 객체를 감지하고, 그 객체의 경계를 정확하게 그리고, 동시에 그 객체가 어떤 클래스에 속하는지를 분류하는 작업을 포함
Semantic Segmentation
- 픽셀 수준(Pixel-wise)의 객체 분류
- 객체 ID를 부여하지 않고, 객체 종류만 구분함
FCN
- 기존 부류기의 Fully-Connected Layer를 CNN을 사용한 Fully-Convolutional Layer로 구조 변경
- Convolutional Layer로만 구성하여 공간 및 위치정보를 잃지 않음
U-Net
- U자 모양으로 생긴 U-Net은 적은 수의 데이터로도 정확한 Segmentation이 가능하다
- 의료영상과 같은 정밀하고, 학습데이터가 적은 경우 자주 활용
- 원본 영상의 정보를 활용하여 연산한다
- FCN보다 성능이 뛰어나다
DeepLab
- Google에서 만든 가능 널리 쓰이는 segmentation architecture
-Atrous Convolution는 구멍 뚫린 넓은 Convolution으로 구성되며, 같은 양의 Parameter로 네트워크가 더 넓게 볼 수 있음
- Transformer를 Semantic Segmentation task에 적용한 모델
- 계층적 Transformer Enconder를 통해 Multi-Scale로 출력을 구성하고, MLP로만 이루어진 단순한 Decoder를 사용하여 Cityscapes, ADE20K 데이터셋에서 기존 모델보다 높은 성능을 달성함
Object Tracking
ByteTrack
- 초기에 어떤 대상을 Tracking 할 것인지에 대한 Initialization, Detection 모델에서 검출된 Detection 모델에서 검출된 객체의 Confidence Score를 기준으로 ID를 부여하는 등의 간단한 아이디어로 Detection 기반의 Tracking 방법의 성능을 획기적으로 높인 후처리 방법
- 현재까지도 널리 쓰이고 있음
Anomaly Detection
Unsupervised and Weakly supervised
- 데이터 접근 가능 여부에 따라 비지도 방식과 약지도 방식으로 나뉨
- 이는 multiple instance learning(MIL) 문제로 접근되며 긍정과 부정을 구별하는 문제이다
- 최근 RTFM은 확장 컨볼루션과 self-attention을 통해 장/단거리 시간 종속성을 캡쳐함
Action Recognition(행동인식)
- Action Recognition이란 연속적인 여러 장의 이미지 또는 영상을 입력 받아 출력으로 대상의 행동에 대해서 추론하는 것을 말함
3D convolution 기반의 Action Recognition
- 2D convolution과 비슷하나 시간축의 정보를 추가적으로 인식하는 네트워크 구조
- ResNet, ResNext 기반의 Action Recognition도 존재
Skeleton 기반의 Action Recognition
- 사람 신체구조를 파악하는 Skeleton network를 action recognition에 합쳐 행동을 인식하는 네트워크
- 정확도는 향상하지만 실시간성이 떨어지는 문제점이 발생
LSTM 기반의 Action Recognition
- 각 이미지 단위로 convolution network를 통과한 후 LSTM을 지나는 방식
- LSTM은기존 RNN의 state에 cell-state를 추가한 것
- 연산량이 많고, 역전파가 상대적으로 안 된다는 단점을 가지고 있어 현재는 많이 사용하지 않는 방식