[인공지능] CNN (Convolutional Neural Network, 합성곱 신경망)

라떼뚜이·2025년 4월 25일

목록 보기

12/23

잠깐 CNN을 이야기하기 전에 Fully-connected Layer 에 대해서 이야기를 해보자면

일반 신경망은 모든 노드가 서로 연결돼 있어서 연산량이 많고, 이미지처럼 큰 데이터에는 비효율적이다.

CNN

CNN은 이미지의 공간 구조를 보존하면서, 필터(작은 창)을 이용해 중요한 패턴만 뽑아내는 구조 !

ImageNet 대회 (ILSVRC) : 전 세계에서 CNN 성능을 겨루는 대회
2012년 AlexNet이 처음으로 CNN으로 압도적 성능을 보여줌
그 후 CNN 구조는 계속 발전함
- AlexNet → VGG → GoogleNet → ResNet
- 층 수가 많아질 수록 정확도가 향상된다.

층 수가 많아질 수록 오류율이 낮아진다는 것을 확인할 수 있다.

사진에서 특징(귀, 눈, 배경 등)을 추출

convolution : 필터를 이용해 이미지를 훑으면서 특정 모양이나 패턴을 찾는다. 처음에는 선, 곡선, 밝기 변화 같은 단순한 것들을 감지
max pooling : 가장 큰 값만 남겨서 정보는 유지하고 크기는 줄이는 역할을 한다. 예를 들어 2*2 를 한다면 제일 큰 값 하나만 뽑게 된다. 사진의 해상도는 줄지만, 중요한 특징만 남기고 효율적으로 처리할 수 있게 된다.

추출된 특징을 기반으로 '이건 강아지야!' 라고 판단

AlexNet은 CNN을 본격적으로 실용화시킨 모델이고, 특징 추출 → 판단 구조가 기본 뼈대에 해당한다.

CNN의 핵심 연산인 합성곱 (Convolution) !

왼쪽 : 입력 이미지 (숫자로 배열)
- 파란색 네모로 표시된 부분을 수용영역 (Receptive Field) 라고 부른다 !
- 신경망의 한 뉴런이 입력 데이터 중 어느 부분을 보고 있는가에 해당하는 영역
가운데 : 필터 (=커널, 3*3)
오른쪽 : 결과 이미지 (특징 맵)

동작

이 과정을 이미지 위를 슬쩍슬쩍 미끄러지듯 반복한다.
→ 그래서 "슬라이딩 윈도우 "

합성곱 연산에서 경계 정보를 보존하고 출력 크기를 조절하기 위해서 흔히 사용되는 기법이다.

필요성

왼쪽 이미지 : 패딩 적용
- 원래 입력은 5 * 5 이지만, 위아래 양옆으로 1칸씩 0을 채운다.
- 이로써 필터가 입력의 가장자리를 포함하여 연산할 수 있따.
가운데 : 필터 (=커널)
- 3 * 3 필터
- 중심값을 기준으로 주변 8개의 값과 함께 연산
오른쪽 : 출력 이미지
- 결과는 5 * 5 크기의 출력 이미지로, 원래 입력 이미지와 동일한 크기를 유지하고 있다.

필터를 이미지 위에 스랄이딩하면서 그 안의 특징을 감지하는 연산

Sliding Window Concept
작은 필터(=창)이 이미지 위를 한 칸씩 옮겨 다니면서 계산
마치 종이 창을 들고 사진 위를 이리저리 움직이며 보는 느낌
Weighted sum
필터의 각 숫자와 이미지 숫자를 곱해서 모두 더함
결과는 필터가 해당 영역에서 얼마나 잘 맞는지(유사성) 나타내는 점수
Feature detection 특징 감지
필터의 종류에 따라 : 수평선 감지, 수직선 감지, 모서리 감지 등 가능