






CNN 아키텍처:
[CONV -> RELU -> POOL]과 같은 블록을 여러 겹 쌓아서 이미지의 특징을 추출하고, 마지막에 완전 연결 계층(FCN)을 붙여 최종적으로 이미지를 분류합니다.필터 (Filter / Kernel):









스트라이드 (Stride):
패딩 (Padding):

수용장 (Receptive Field):






번역 등변성: CNN이 이미지를 잘 다루는 근본 원리:
- '등변성'과 '불변성'의 차이:
- 번역 불변성 (Translation Invariance)은 최종 목표입니다. 이미지 속 고양이의 위치가 바뀌어도, 최종 출력은 여전히 '고양이'라고 나와야 합니다. 즉, 입력의 변화에도 출력이 변하지 않는 것입니다.
- 번역 등변성 (Translation Equivariance)은 이 목표를 달성하기 위한 과정입니다. 이미지 속 고양이가 왼쪽으로 이동하면, CNN 내부의 특징 맵(feature map)에 나타나는 '고양이 특징'도 똑같이 왼쪽으로 이동합니다. 즉, 입력의 변화에 따라 출력(특징 맵)도 일관되게 변하는 성질입니다.
- 등변성이 강력한 이유: 파라미터 공유 (Parameter Sharing):
- 등변성 덕분에 CNN은 이미지의 특정 위치에서 '고양이 귀'를 감지하는 필터를 한 번만 학습하면 됩니다. 그리고 이 필터를 이미지의 모든 위치에 슬라이딩(sliding) 시키면서 적용하기만 하면, 어느 위치에 있든 '고양이 귀'를 찾아낼 수 있습니다.
- 만약 완전 연결 신경망(FCN)이었다면, 이미지의 왼쪽 위 귀, 오른쪽 위 귀, 중앙의 귀를 감지하기 위해 각각 별도의 파라미터를 모두 학습해야 했을 것입니다.
- 이처럼 하나의 필터(파라미터 셋)를 이미지 전체에 공유해서 사용하는 파라미터 공유는 CNN을 엄청나게 효율적이고 강력하게 만드는 핵심적인 메커니즘입니다.

CNN vs. 트랜스포머: 세상을 보는 두 가지 관점:
CNN의 명확한 한계점: