🤔 어떻게 모델은 그러한 복잡한 data들을 다 이해하는 것일까?
Model is an informative representation of an object, person, or system
Inductive Bias 란, 모델 학습과정에서 특정 유형의 패턴을 잘 학습하도록 하는 사전 가정(지식)
CNN
-> Locality & Translation Invariacne : 이미지의 어디서든 나타나는 지역패턴에 집중
-> Hierarchical Feature Learning : 단순한 특징에서 복잡한 특징으로 학습
-> Weight Sharing : 동일한 필터를 이미지 전체에 적용
🤔CNN은 무조건 이미지 표현에만 쓰인다? -> 거짓(False)
NLP에서 CNN은, 커널의 크기에 따라 텍스트를 N-gram 단위로 처리. text를 이해하는 과정이랑 비슷.
Transformers
-> Long-Range Dependeneis : 먼 거리의 관계 포착
-> Flexible Input Handling : 다양한 입력 크기를 처리
-> Self-Attention : 입력 부분의 중요도를 동적으로 가중.
🤔 문제를 해결하기 위해 데이터를 어떠한 방식으로 바라보아야 하는가?
👉 주어진 데이터를 사용하여 문제 해결에 가장 걸 맞는 Representation을 낼 수 있는 모델 가정
-> Inductive Bias는 모델이 어떤 관점에서 데이터를 보려고 하는가를 설명하는 것.
① 고전적 모델
② 최근 CNN_ConvNeXt(2022)
ConvNeXt의 Architecture
● KeyInnovation
- Macro디자인:ResNeXt-ify,inverted bottleneck,Large kernel size
- Micro디자인:GELU,Layer Normalization(LN)
● 아키텍쳐 설계 선택
NLP에서 나온 혁신적인 논문. Attention is all you need
Visoin 에서 Transformer 사용_viT
CoAtNet: A Hybrid Architecture
🤔 MBConv? Squueze and Excitation?
👉
A ConvNet for the 2020s
https://arxiv.org/abs/2201.03545
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
https://arxiv.org/abs/2010.11929
CoAtNet: Marrying Convolution and Attention for All Data Sizes
https://arxiv.org/abs/2106.04803
ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases
https://arxiv.org/abs/2103.10697
CNN for NLP
https://emnlp2014.org/papers/pdf/EMNLP2014181.pdf