binary 사건 Y의 발생 확률 p → 성공 확률과 실패 확률의 비율 odds → odds의 log 변환인 logit → logit에 선형 회귀를 적용한 logistic regression → sigmoid function
기계학습과 다층 퍼셉트론의 개요
sum, subtract, multiply, view, transpose, slicing, transform numpy, concatenate, stak, transpose, permute
LeNet5, AlexNet, VGGNet, GoogLeNet, ResNet
Naive Convolution 연산은 Loop를 7번 돌기 때문에 비효율적이다. n차원을 2D로 변환하는 IM2COL과 일반적인 행렬 곱인 GEMM을 이용해 이를 개선할 수 있다. 연산 속도 비교 결과 PyTorch > IM2COL & GEMM >>>>> Naive
Activation, Pooling, Fully-Connected layer 구현
Logistic Regression과 CNN의 Backpropagation 과정을 살펴보았다. CNN의 역전파에 독특한 과정들이 있었다.(FC layer의 weight 크기 맞추기, Max Pooling의 gradients 계산, 역전파에서 Convolution 연산)
SGD: 랜덤 데이터로 업데이트, MSGD: 미니 배치로 업데이트, Momentum: 이전 업데이트 고려, AdaGrad: 각 매개변수에 다른 학습률, RMSprop: 제곱된 그래디언트의 이동평균, Adam: Momentum과 RMSprop을 결합한 최적화 알고리즘
Overfitting이 의심된다면 가장 먼저 Regularization을 적용해보기. L2 regularization이 Weight Decay라고 불리는 이유. Regularization이 Overfitting을 방지할 수 있는 이유.
Dropout
좋은 hyperparameter random 조합을 찾고, 그 조합 부근에서 더 미세한 hyperparameter들의 random 조합을 만들어 그중 가장 좋은 조합을 찾는다. 한편, hyperparameter의 특성에 맞게 적절한 scale을 고려하여 탐색해야 한다.
BN은 한 배치에서 층별, 은닉 유닛별 연산 결과를 활성화 함수 이전에 정규화. 값들이 다양한 분포를 가지도록 하는 scale과 shift를 학습을 통해 업데이트. 학습 속도 향상, 내부 공변량 변화 감소, 약간의 정규화 효과. test의 평균과 분산은 EMA를 활용.
One stage & Two stage, Grid, Anchor box, Confidence score, Nonmax suppression
Confusion Matrix, Accuracy, Precision, Recall, F1 Score, PR Curve, Multi Class Confusion Matrix
nuScenes dataset에 CenterPoint 알고리즘 적용하여 3D Object Detection하기
MFA를 설정한다. Launch instances로 instance를 생성한다. Start Instance로 생성된 instance를 실행한다. 이후 ssh를 이용해 Local에서 AWS에 접속한다. scp로 Local과 AWS 간 파일 전송이 가능하다.
1 x 1 Convolution으로 채널 수를 조절할 수 있으며, 비선형성을 추가하여 복잡한 함수를 학습할 수 있다. Inception module은 다양한 크기의 필터를 사용하여 성능을 높이며, 이때 계산 비용을 줄이기 위해 bottleneck layer를 사용한다.
YOLO v1은 전체 이미지를 grid로 나눈 후, 각 grid에서 객체의 bbox와 confidence, 클래스를 예측한다. Inference 시에는 Non-max suppression으로 수많은 bbox들 중 최적의 bbox들만을 남긴다.
residual block은 활성화 함수 출력값을 main path와 shortcut으로 전달하고, 이 skip connection을 통해 기울기 소실 문제를 해결하고 더 깊은 네트워크를 학습할 수 있게 해준다. ResNet은 이 block을 쌓아 만든 네트워크이다.
Convolutional Neural Network, Object Detection
One-stage detector의 정확도가 낮은 주요 이유는 객체와 배경의 클래스 불균형이다. Focal Loss는 easy example의 loss를 낮추어 모델이 informative한 hard example에 집중하도록 돕는다.
K He. Deep Residual Learning for Image Recognition. CVPR 2016.
R Girshick. Rich feature hierarchies for accurate object detection and semantic segmentation. CVPR 2014.
R Girshick. Fast R-CNN. ICCV 2015.
Loss Functions, Optimization, Neural Networks, Backpropagation, Training
CNN Case Studies, Video Classification, Two-Stream Models, 3D Convolution
RNN, LSTM, RNN-based Video Models, Attention Mechanism, Attention-based Video Models
Transformers, Self-attention, Multi-head Self-attention, Masked Multi-head Self-attention, Positional Encoding, BERT
Transformer-based Image Models, ViT, DeiT, Swin Transformer, CvT, Transformer-based Video Models, ViViT, TimeSFormer, MViT
Object Detection, Two-stage model, One-stage model, DETR (Detection Transformer)
Semantic Segmentation, Deconvolution Network, U-Net, Instance Segmentation, Mask R-CNN, Segmentation with Transformers, Segmenter, DPT
Metric Learning, Learning to Rank, NDCG, Triplet Loss, Contrastive Learning, Pairwise Loss, Negative Sampling, SimCLR, NCE
Multimodal Learning, Image / Video Captioning, Transformer-based Image / Video-text Models, Audio Modeling, Multimodal Metric Learning, CLIP