
LeNet-5는 기울기 기반 학습을 사용하여 문서 인식을 수행하는 초기의 컨볼루션 신경망 (CNN)
주요 구조
입력 (input) : 이미지 데이터를 입력받아 처리 시작
컨볼루션 (Convolution) : 이미지에서 중요한 특징을 추출
서브샘플링 (Subsampling) : 데이터 크기를 줄이면서 중요한 정보를 유지
완전 연결층 (Fully Connected) : 최종 출력을 생성하여 인식 결과를 도출
AlexNet은 2012년 ILSVRC 대회에서 우승하여 딥러닝 혁신을 이끈 CNN 모델
이미지 입력을 벡터로 변환
완전 연결층 : 입력 벡터 (3072차원)에 가중치 행렬 W를 곱
공간적 구조 유지
컨볼루션 레이어는 이미지의 공간적 구조를 보존하면서,
필터를 사용하여 국소적인 특징을 추출합니다
필터를 이용해 이미지의 중요한 부분(에지, 텍스처 등)을 학습합니다
필터를 이미지에 적용하여 공간적으로 슬라이딩
필터가 이미지의 각 위치 위를 슬라이드하면서, 필터와 이미지 패치 간의 내적을 계산
필터가 이미지의 작은 패치를 선택하여 내적을 계산
내적 계산 후 하나의 숫자가 생성
필터가 입력 이미지에서 특징을 추출할 때, 이미지 위를 슬라이드하며
각 위치에서 내적을 계산한 결과를 Activation Map으로 저장
예를 들면 6개의 5x5 필터를 사용하면, 각각의 필터가 이미지에서 다른 특징을 추출
6개의 별도의 적당한 Activation Maps을 얻게 됨
스트라이드는 컨볼루션 필터가 이미지 위에서 이동하는 간격
스트라이드가 작으면 더 세밀한 특징을 학습할 수 있지만 계산량이 늘어납니다
스트라이드가 크면 계산량이 줄어들지만, 정보 손실이 발생할 수 있습니다
패딩은 입력 이미지의 가장자리에 추가로 픽셀 값을 넣어주는 과정
폴링 레이어는 컨볼루션 신경망(CNN)에서 공간적 크기를 줄여주면서, 중요한 특징을 유지하는 레이어
특징 맵의 크기를 감소시켜 계산 비용을 줄이고, 모델의 과적합(overfitting)을 방지하는 역할
ex) 맥스 폴링(Max Pooling), 평균 폴링 (Average Pooling)