1. 정의와 배경
- **Convolutional Neural Network (CNN, 합성곱 신경망)**은 이미지, 음성, 시계열 등 고차원 데이터의 공간적(Local)·위상적(Topological) 특징을 자동으로 추출하여 학습하는 딥러닝(Deep Learning) 모델의 대표적인 아키텍처이다.
- 전통적인 **인공신경망(Artificial Neural Network, ANN)**이나 **다층퍼셉트론(Multilayer Perceptron, MLP)**은 입력 차원이 크면 파라미터 수가 기하급수적으로 증가한다는 한계를 가진다. 이를 극복하기 위해 1989년 Yann LeCun이 손글씨 숫자 인식(LeNet-5)에서 CNN을 적용하면서 본격적으로 주목받았다.
2. 핵심 구조와 원리
CNN은 크게 **합성곱 계층(Convolutional Layer), 풀링 계층(Pooling Layer), 활성화 함수(Activation Function), 완전연결 계층(Fully Connected Layer)**로 구성된다.
(1) 합성곱 계층 (Convolutional Layer)
- 입력 데이터(예: 이미지)에 **필터(Filter) 또는 커널(Kernel)**을 슬라이딩하며 합성곱 연산(Convolution) 수행.
- 특정 지역(Local receptive field)에 집중하여 공간적 패턴(에지, 선, 질감 등)을 추출.
- 파라미터 공유(Parameter Sharing)와 희소 연결(Sparse Connectivity)을 통해 연산량 및 학습 파라미터를 크게 줄임.
(2) 활성화 함수 (Activation Function)
- 비선형성을 부여하여 모델이 복잡한 특징을 학습 가능하도록 함.
- ReLU(Rectified Linear Unit), Leaky ReLU, ELU 등이 주로 사용됨.
(3) 풀링 계층 (Pooling Layer)
- 국소 영역에서 대표값(최댓값, 평균값 등)을 추출하여 데이터 차원 축소 및 위치 변동(Translation)에 대한 불변성(Invariance) 확보.
- Max Pooling, Average Pooling이 대표적.
(4) 완전연결 계층 (Fully Connected Layer)
- 마지막 단계에서 추출된 특징 벡터를 분류(Classification) 혹은 회귀(Regression)에 활용.
- 전통적인 다층퍼셉트론과 동일한 구조.
3. 수학적 기반
-
합성곱 연산 수식
(I∗K)(x,y)=m∑n∑I(x+m,y+n)⋅K(m,n)
여기서 I는 입력 이미지, K는 커널.
-
CNN의 학습은 **역전파(Backpropagation)**와 경사하강법(Gradient Descent) 기반 최적화로 수행되며, 합성곱과 풀링 연산도 미분 가능하도록 설계됨.
4. 장점
- 파라미터 효율성: 필터 공유로 학습해야 할 파라미터 수가 감소.
- 위치 불변성 확보: 동일한 패턴이 이미지 내 어디에 있어도 탐지 가능.
- 자동 특징 추출: 수작업 특징 추출(SIFT, HOG 등)을 대체.
- 범용성: 이미지, 음성, 자연어 처리 등 다양한 도메인에 적용 가능.
5. 한계
- 많은 데이터 필요: 고성능 학습에는 대규모 데이터셋이 요구됨.
- 연산 자원 소모: GPU(Graphics Processing Unit) 등 고성능 하드웨어 필요.
- 공간적 구조 한정: 순차적(long-term dependency) 정보 학습에는 비효율적 (→ RNN, Transformer 등장).
- 설명 가능성(Explainability) 부족: CNN 내부의 Feature Map 해석이 어려움.
6. 응용 분야
- 영상 인식(Image Recognition): 얼굴 인식, 자율주행 객체 탐지.
- 자연어 처리(Natural Language Processing, NLP): 텍스트 분류, 문장 의미 추출.
- 의료 영상 분석(Medical Imaging): CT, MRI 이상 패턴 검출.
- 산업 응용: 불량품 검출, 제조 자동화, 보안 감시.
7. 최신 동향
- Residual Network (ResNet): 기울기 소실 문제 해결을 위해 Skip Connection 도입.
- Inception Network: 다양한 크기의 필터를 병렬 적용.
- EfficientNet: 모델 크기, 깊이, 해상도를 균형 있게 확장.
- CNN + Transformer 융합: Vision Transformer(ViT)와 CNN 혼합 구조 연구 활발.
- 경량화 연구: 모바일 및 엣지 환경에서 CNN 경량화(Quantization, Pruning).
8. 결론
CNN은 공간적 구조와 패턴 학습에 특화된 딥러닝 모델로, 현대 인공지능의 핵심 기반 기술 중 하나이다. 기술사 관점에서 볼 때 CNN은 단순히 알고리즘 차원을 넘어, 산업 전반에서 활용 가능한 범용 플랫폼 기술이며, 향후 경량화, 해석 가능성 강화, Transformer와의 융합이 주요 연구 방향으로 제시된다.