Machine Learning과 Deep Learning의 신경망 계층 구조도 (ANN 기반 모델 계보 정리)

calico·2026년 1월 6일

Artificial Intelligence

목록 보기
163/177

https://dbrang.tistory.com/1537

전체 개념 계층 맵 (ANN 중심)


모든 CNN, RNN, Transformer는 ANN에 포함되며,
차이는 학습 패러다임이 아니라 연결 구조에 있다.

Machine Learning
├─ Traditional Machine Learning
│  ├─ Linear Regression
│  ├─ Logistic Regression
│  ├─ SVM
│  ├─ Decision Tree
│  ├─ Random Forest
│  └─ KNN
│
└─ Deep Learning
   └─ Artificial Neural Network (ANN)
      ├─ 기본 구성 요소
      │  ├─ Weight / Bias
      │  ├─ Activation Function
      │  │  ├─ Sigmoid
      │  │  ├─ Tanh
      │  │  └─ ReLU 계열
      │  ├─ Loss Function
      │  └─ Optimizer (Gradient Descent)
      │
      ├─ SLP (Single Layer Perceptron)
      │
      ├─ MLP (Multi Layer Perceptron)
      │
      └─ DNN (Deep Neural Network)
         ├─ CNN
         ├─ RNN
         │  ├─ LSTM
         │  └─ GRU
         ├─ Autoencoder
         ├─ GAN
         └─ Transformer



1. Machine Learning vs. Deep Learning


Machine Learning은 사람이 정의한 특징(feature)을 기반으로 모델이 학습하는 방식이 주를 이룬다.
반면 Deep Learning은 신경망 구조를 이용해 입력 데이터로부터 특징 추출과 판단을 동시에 학습한다.

따라서 Deep Learning은 Machine Learning의 하위 개념이며,
복잡한 비선형 관계를 자동으로 학습할 수 있다는 점이 핵심 차이이다.



2. ANN (Artificial Neural Network, 인공신경망)


ANN은 모든 입력을 출력으로 매핑하는 가중치를 학습하는 신경망 모델 계열의 총칭이다.

주요 특징은 다음과 같다.

  • 비선형 활성화 함수를 통해 복잡한 함수 근사 가능
  • 입력–출력 관계를 가중치(weight)로 학습
  • 활성화 함수는 모델에 비선형성을 부여
  • 파라미터 수 증가에 따라 최적화 난이도 증가
  • 데이터 부족 시 Overfitting 발생 가능

ANN은 단일 모델이 아니라,
SLP, MLP, DNN, CNN, RNN 등을 모두 포함하는 상위 개념이다.



3. SLP (Single Layer Perceptron, 단층 퍼셉트론)


퍼셉트론은 학습 능력을 갖는 가장 기본적인 패턴 분류 장치이다.

SLP의 특징은 다음과 같다.

  • 단일 퍼셉트론으로 구성
  • 은닉층이 존재하지 않음
  • 입력과 출력을 선형 결합으로만 처리
  • XOR 문제와 같은 비선형 문제 해결 불가

SLP는 현대 딥러닝에서는 거의 사용되지 않지만,
신경망 구조 이해의 출발점이다.



4. MLP (Multi Layer Perceptron, 다층 퍼셉트론)


MLP는 하나 이상의 은닉층(hidden layer)을 가진 신경망이다.

주요 특징은 다음과 같다.

  • 여러 층의 퍼셉트론으로 구성
  • 일반적으로 지도학습 사용
  • 역전파 알고리즘(Backpropagation)으로 학습
  • 경사하강법(Gradient Descent)으로 에러 최소화
  • 비선형 문제 해결 가능

주요 문제점

  • Overfitting: 학습 데이터에 과도하게 적합

  • Vanishing Gradient: 깊은 층에서 기울기 소실



5. DNN (Deep Neural Network, 심층신경망)


DNN은 MLP의 은닉층을 더 깊게 확장한 구조이다.

  • 은닉층이 2개 이상 (보통 3개 이상일 때 Deep Learning이라 부름)
  • 표현력(Representation Power) 크게 증가
  • 학습 안정성 및 계산 비용 문제 증가

이 한계를 해결하거나 특정 데이터 구조에 맞추기 위해
CNN, RNN, LSTM, GRU 등의 구조가 발전했다.



6. CNN (Convolutional Neural Network, 합성곱 신경망)


CNN은 입력 데이터의 공간적 특징을 추출하는 데 특화된 신경망이다.

주요 특징은 다음과 같다.

  • Convolution 연산을 통해 특징 추출
  • 커널(필터)은 사람이 정의하지 않고 자동 학습
  • Pooling을 통해 차원 축소 및 요약
  • 지역 연결과 가중치 공유로 파라미터 수 감소
  • 이미지, 비디오, 얼굴 인식, 문장 분류 등에 활용

기본 흐름

Convolution → Activation → Pooling → (반복) → Fully Connected



7. RNN (Recurrent Neural Network, 순환신경망)


RNN은 순차 데이터의 시간적 의존성을 학습하는 신경망이다.

주요 특징은 다음과 같다.

  • 입력 데이터의 순서 정보 반영
  • 현재 출력은 이전 상태에 의존
  • 과거 정보를 가중치를 통해 현재 학습에 반영
  • 여러 단계에서 파라미터 공유
  • 반복적·순차적 데이터에 효과적

대표 구조

  • Many-to-Many
  • Seq2Seq

단점

  • Vanishing Gradient 문제

    → 이를 완화하기 위해 LSTM, GRU 등장



8. LSTM / GRU


LSTM과 GRU는 RNN의 장기 의존성 문제를 해결하기 위해 등장한 구조이다.

  • LSTM: Cell State와 게이트 구조로 정보 흐름 제어

  • GRU: 게이트 수를 줄여 계산 효율 개선



9. Transformer


Transformer는 순환 구조를 제거하고 Self-Attention 메커니즘을 사용한 모델이다.

  • 병렬 처리 가능

  • 장거리 의존성 학습에 강점

  • NLP뿐 아니라 Vision 영역으로 확장



profile
All views expressed here are solely my own and do not represent those of any affiliated organization.

0개의 댓글