Vision Transformer(ViT)는 이미지를 처리하는 Transformer 기반의 딥러닝 모델→ 기존의 CNN(합성곱 신경망) 대신 Transformer를 사용하여 이미지에서 패턴을 학습하며, 자연어 처리(NLP)에서 성공한 Transformer 구조를 컴퓨터 비전에 적용한 모델.
ViT는 이미지를 Transformer가 처리할 수 있도록 작은 패치(patch) 단위로 분할하여 입력
이를 통해 CNN처럼 필터를 사용하지 않고도 이미지의 특성을 학습할 수 있음
✅ 핵심 과정
| ViT (Vision Transformer) | CNN (Convolutional Neural Network) | |
|---|---|---|
| 특징 추출 방식 | Self-Attention을 사용하여 전체 이미지의 관계를 학습 | 합성곱 필터를 사용하여 국소적인 특징을 학습 |
| 연산 효율성 | 작은 데이터셋에서는 비효율적, 대량의 데이터가 필요 | 상대적으로 데이터 효율적 |
| 전이 학습(Transfer Learning) | 사전 학습된 대형 모델을 활용하면 성능 우수 | 작은 데이터셋에서도 성능이 좋음 |
| 모델 유연성 | 패치 크기, 구조 변경이 가능 | 필터 크기 및 구조 변경이 어려움 |
✅ ViT의 장점
✅ ViT의 단점