-
3×3 합성곱 (3x3 Convolution)
- 3×3 크기의 작은 필터를 사용하는 합성곱 연산
- 넓은 수용 영역을 적은 파라미터로 얻을 수 있어 깊은 네트워크 구현 가능
-
1×1 합성곱 (1x1 Convolution)
- 수용 영역 크기 변경 없이 채널 간 상호작용 가능
- ReLU와 결합해 비선형성 추가, VGGNet 구성 C에 사용
-
수용 영역 (Receptive Field)
- 네트워크 뉴런이 입력에서 볼 수 있는 영역의 크기
- 여러 층의 작은 필터를 쌓아 넓은 수용 영역 확보 가능
-
유효 수용 영역 (Effective Receptive Field)
- 작은 필터를 여러 층에 쌓아 넓은 영역을 커버
- 예: 3×3 필터 두 개로 5×5 수용 영역 확보 가능
-
완전 연결 층 (Fully-Connected Layer)
- 모든 뉴런이 이전 층의 모든 뉴런과 연결된 층
- 분류기의 마지막 부분에서 사용되며, 각 층이 4096 채널 가짐
-
ReLU (Rectified Linear Unit)
- 비선형 활성화 함수로 양수는 그대로, 음수는 0으로 변환
- 경사 소실 문제를 줄이며, VGGNet의 모든 hidden layer에 적용
-
Dense Application (촘촘한 적용)
- ConvNet을 전체 이미지에 걸쳐 연속적으로 적용
- 이미지 전체에 클래스 점수 맵 생성해 각 위치에서 클래스 예측
-
Scale Jittering (스케일 다양화)
- 학습 중 이미지 크기를 무작위로 설정해 다양한 크기의 객체 학습 가능
- 강력한 일반화 성능 확보 가능
-
Multi-Scale Evaluation (다중 크기 평가)
- 테스트에서 여러 크기의 이미지로 성능 평가
- 다양한 크기의 객체 인식에 강건한 성능 제공
-
Multi-Crop Evaluation (다중 크롭 평가)
- 이미지 여러 부분을 잘라내어 네트워크에 적용
- 세밀한 위치 정보 학습에 기여
-
ConvNet Fusion (네트워크 결합)
- 여러 ConvNet 모델의 결과를 결합해 성능 향상
- 각 모델의 softmax 클래스 확률 평균내어 결과 보완
-
Local Response Normalization (LRN)
- 입력 값이 큰 부분을 정규화해 주변 픽셀과 비교해 강하게 만드는 정규화 기법
- VGGNet에서는 성능 개선 효과가 없어 대부분의 모델에서 제외
-
Max Pooling (맥스 풀링)
- 공간 차원을 줄이면서 중요한 정보를 유지하는 다운샘플링 기법
- VGGNet에서는 2×2 크기의 필터와 스트라이드 2를 사용해 공간 해상도를 절반으로 축소
-
Dropout (드롭아웃)
- 학습 시 일부 뉴런을 무작위로 비활성화해 과적합 방지
- VGGNet에서 fully-connected 층에 0.5 비율로 적용
-
Softmax Layer (소프트맥스 층)
- 모델의 최종 출력에서 각 클래스에 대한 확률을 계산하는 층
- VGGNet에서는 1000개의 클래스 분류를 위해 최종적으로 적용
-
Class Score Map (클래스 점수 맵)
- 이미지 각 위치에 대해 특정 클래스에 속할 가능성을 계산한 맵
- Dense Application 방식으로 생성
-
Fine-Tuning (파인 튜닝)
- 사전 학습된 모델을 새로운 데이터셋에 맞게 조정하는 기법
- VGGNet 연구에서는 파인 튜닝 없이 선형 SVM 분류기를 사용해 성능 평가
-
Weight Initialization (가중치 초기화)
- 학습을 안정화하기 위해 네트워크의 가중치를 초기화하는 방식
- VGGNet에서는 얕은 구성(A)에서 학습된 가중치를 사용해 더 깊은 모델 초기화
-
Parameter Sharing (파라미터 공유)
- 동일한 가중치를 여러 위치에 적용해 파라미터 수 감소
- VGGNet에서 3×3 필터를 반복 사용해 효과적으로 깊이 증가
-
Caffe (카페)
- 딥러닝 모델 구현과 학습에 사용하는 프레임워크로, VGGNet 연구에서 사용
- 여러 GPU 사용 가능, 학습 속도 개선에 기여
-
Mini-Batch Gradient Descent (미니 배치 경사 하강법)
- 전체 데이터셋 대신 일부 데이터를 사용해 경사 하강법 진행
- VGGNet에서 한 번에 256개 이미지로 학습
-
Momentum (모멘텀)
- 학습 속도를 높이고 진동을 줄이기 위해 사용되는 최적화 기술
- VGGNet에서는 모멘텀을 0.9로 설정해 학습 안정성 증가
-
Effective Depth (유효 깊이)
- 여러 작은 층을 쌓아 실질적으로 더 깊은 구조와 유사한 효과를 얻는 것
- VGGNet은 깊은 네트워크 구조를 통해 더 높은 인식 성능 달성