CNN(Convolutional Neural Network)

유정원·2024년 9월 3일

AI 관련

목록 보기

6/11

CNN(Convolutional Neural Network)은 딥러닝에서 주로 이미지 처리에 사용되는 인공신경망의 한 종류입니다. CNN은 이미지, 비디오, 음성 인식 등과 같은 작업에서 뛰어난 성능을 발휘하며, 특히 이미지 분류, 객체 탐지, 세그멘테이션과 같은 컴퓨터 비전 분야에서 널리 사용됩니다.

CNN의 기본 개념

CNN은 컨볼루션(Convolution)이라는 수학적 연산을 사용하여, 입력 이미지에서 유용한 특징을 추출하고, 이를 바탕으로 분류 또는 예측을 수행하는 신경망입니다. CNN의 기본적인 구조는 다음과 같은 층(layer)들로 구성됩니다:

입력층(Input Layer):
- CNN의 입력층은 일반적으로 이미지 데이터입니다. 이미지는 픽셀 값의 2D 배열로 표현되며, 각 픽셀은 RGB 값(3개의 채널)으로 구성될 수 있습니다.
컨볼루션층(Convolutional Layer):
- 컨볼루션층은 이미지에서 특징 맵(feature map)을 추출하는 역할을 합니다. 이 층에서는 필터(또는 커널, kernel)라고 불리는 작은 행렬을 사용하여 입력 이미지와의 합성곱 연산을 수행합니다.
- 필터는 이미지의 특정 패턴이나 특징(예: 가장자리, 질감, 색상)을 인식하는 데 사용되며, 여러 필터를 사용하여 다양한 특징 맵을 생성합니다.
- 활성화 함수(Activation Function)는 ReLU(Rectified Linear Unit)를 주로 사용하여 비선형성을 추가하고, 모델의 학습 능력을 향상시킵니다.
풀링층(Pooling Layer):
- 풀링층은 컨볼루션층에서 생성된 특징 맵을 다운샘플링하여, 계산량을 줄이고 모델의 복잡도를 낮춥니다.
- 맥스 풀링(Max Pooling)과 평균 풀링(Average Pooling)이 주로 사용되며, 맥스 풀링은 특징 맵에서 가장 큰 값을 선택하여 중요한 특징만 남기고 나머지를 제거하는 방식입니다.
완전 연결층(Fully Connected Layer, FC Layer):
- 완전 연결층은 이미지의 특징을 기반으로 최종 분류를 수행하는 층입니다. 이 층은 이전의 모든 노드와 연결된 신경망으로 구성됩니다.
- CNN의 마지막에는 소프트맥스(Softmax) 함수나 시그모이드(Sigmoid) 함수가 사용되어, 클래스 확률을 출력합니다.
출력층(Output Layer):
- 출력층은 모델의 최종 예측 값을 제공합니다. 예를 들어, 이미지 분류 문제에서는 각 클래스에 대한 확률을 출력합니다.

CNN의 구조 예시

CNN의 기본 구조는 다음과 같습니다:

[입력층] → [컨볼루션층] → [활성화 함수] → [풀링층] → [컨볼루션층] → [활성화 함수] → [풀링층] → [완전 연결층] → [출력층]

CNN의 주요 개념 및 장점

지역 연결성(Local Connectivity):
- CNN은 입력 이미지의 일부 지역만 처리하여, 연산량을 줄이고 효율적인 학습을 가능하게 합니다. 필터는 이미지의 특정 영역에서만 활성화되며, 이는 CNN이 이미지를 처리할 때 위치 불변성(Translation Invariance)을 가지게 합니다.
공유 가중치(Weight Sharing):
- 동일한 필터가 전체 이미지에 대해 반복적으로 적용되므로, 같은 가중치가 여러 위치에서 사용됩니다. 이는 학습 파라미터의 수를 크게 줄이고, 과적합을 방지하는 데 도움이 됩니다.
계층적 특징 학습(Hierarchical Feature Learning):
- CNN은 여러 층을 쌓아 저수준에서 고수준까지 다양한 특징을 학습합니다. 초기 층에서는 단순한 가장자리나 색상 패턴을 학습하고, 더 깊은 층에서는 복잡한 형태나 객체를 인식할 수 있습니다.
전이 학습(Transfer Learning):
- CNN은 대규모 데이터셋에서 사전 학습된 모델을 사용하여, 새로운 작업에 쉽게 적응할 수 있습니다. 이는 작은 데이터셋에서도 좋은 성능을 낼 수 있게 해줍니다.

CNN의 응용 분야

CNN은 다양한 컴퓨터 비전 작업에 사용됩니다:

이미지 분류(Image Classification):
- 이미지가 어떤 클래스에 속하는지를 예측하는 작업입니다. 예를 들어, 고양이, 개, 자동차, 비행기 등으로 이미지를 분류할 수 있습니다.
객체 탐지(Object Detection):
- 이미지에서 특정 객체의 위치를 식별하고, 해당 객체를 분류하는 작업입니다. 예를 들어, 자율 주행 차량에서 도로의 다른 차량, 보행자, 표지판 등을 탐지하는 데 사용됩니다.
이미지 분할(Image Segmentation):
- 이미지 내에서 각 픽셀이 어떤 객체에 속하는지를 예측하는 작업입니다. 이 작업은 의료 영상 분석, 위성 이미지 처리 등에서 중요한 역할을 합니다.
얼굴 인식(Face Recognition):
- 얼굴 이미지에서 특정 인물을 인식하는 작업입니다. 보안 시스템, 소셜 미디어, 모바일 기기에서 널리 사용됩니다.
자율 주행(Autonomous Driving):
- 자율 주행 차량의 시각 시스템에서, 도로의 객체를 탐지하고 분류하여 차량을 안전하게 운행하는 데 사용됩니다.
의료 영상 분석(Medical Image Analysis):
- 의료 영상(예: X-ray, MRI, CT)에서 질병을 진단하거나 병변을 탐지하는 데 사용됩니다.

CNN의 한계와 개선

대량의 데이터 필요:
- CNN은 일반적으로 대규모 데이터셋에서 학습되어야 좋은 성능을 발휘합니다. 데이터가 부족할 경우, 과적합(overfitting)이 발생할 수 있습니다.
높은 계산 비용:
- CNN은 복잡한 연산을 포함하며, 특히 고해상도 이미지나 깊은 네트워크에서는 계산 비용이 매우 높습니다. 이를 해결하기 위해 GPU, TPU 등의 고성능 하드웨어가 필요합니다.
해석의 어려움:
- CNN은 "블랙박스" 모델로 간주되며, 학습된 모델의 내부 구조를 해석하고 이해하는 것이 어렵습니다. 이는 결과의 신뢰성 문제로 이어질 수 있습니다.
데이터 증강(Data Augmentation):
- CNN의 성능을 향상시키기 위해, 데이터를 다양하게 변형(회전, 크기 조절, 노이즈 추가)하여 학습 데이터의 다양성을 높입니다. 이는 과적합을 줄이고, 모델의 일반화 능력을 향상시킵니다.
정규화 기법(Normalization Techniques):
- 배치 정규화(Batch Normalization)와 같은 기술을 사용하여, 학습 과정에서의 불안정성을 줄이고 학습 속도를 높일 수 있습니다.
전이 학습(Transfer Learning):
- 대규모 데이터셋에서 미리 학습된 CNN 모델을 사용하여, 새로운 작업에 빠르게 적응할 수 있습니다. 이는 작은 데이터셋에서도 좋은 성능을 보장합니다.

CNN의 대표적인 아키텍처

LeNet-5:
- Yann LeCun이 개발한 초기 CNN 모델로, 손글씨 숫자 인식(MNIST) 작업에서 사용되었습니다. LeNet-5는 CNN의 개념을 널리 알린 중요한 모델입니다.
AlexNet:
- 2012년 ILSVRC(이미지넷) 대회에서 우승한 CNN 모델로, 깊고 복잡한 구조를 갖추었으며, ReLU 활성화 함수와 드롭아웃(Dropout)을 사용하여 성능을 크게 향상시켰습니다.
VGGNet:
- 매우 깊은 네트워크(16~19개의 계층)를 사용하여 이미지 분류에서 높은 성능을 달성한 모델입니다. 단순하지만 효과적인 3x3 컨볼루션 필터를 사용합니다.
ResNet:
- "Residual Network"로, 네트워크가 깊어질수록 발생하는 기울기 소실 문제를 해결하기 위해 잔차 연결(skip connections)을 도입한 모델입니다. ResNet은 매우 깊은 네트워크(152개 층 이상)에서도 높은 성능을 유지할 수 있습니다.
Inception (GoogLeNet):
- 네트워크의 넓이를 확장하여 다양한 크기의 필터를 동시에 사용하고, 각 필터의 출력을 결합하여 성능을 향상시킨 모델입니다. 효율적인 계산과 높은 성능을 목표로 합니다.
EfficientNet:
- 네트워크의 너비,
깊이, 해상도를 균형 있게 조정하여, 적은 파라미터로도 높은 성능을 달성할 수 있는 모델입니다.

요약

CNN(Convolutional Neural Network)은 이미지와 같은 2D 데이터를 처리하고, 특정 특징을 학습하여 분류나 예측을 수행하는 딥러닝 모델입니다.
CNN은 컨볼루션층, 풀링층, 완전 연결층 등으로 구성되며, 이미지 분류, 객체 탐지, 이미지 분할 등의 다양한 컴퓨터 비전 작업에 널리 사용됩니다.
CNN은 대규모 데이터와 높은 계산 자원을 필요로 하지만, 전이 학습, 데이터 증강, 정규화 기법 등을 사용하여 성능을 최적화할 수 있습니다.
AlexNet, VGGNet, ResNet 등 다양한 CNN 아키텍처가 개발되어, 현재의 컴퓨터 비전 분야에서 핵심적인 역할을 하고 있습니다.

유정원

이전 포스트

OCR(Optical Character Recognition)

다음 포스트