[AI 미션코스 WEEK4]

Shin Dae Hwan·2025년 11월 24일

Transformer가 RNN, LSTM과 다른 점?

  • Transformer란?
    텍스트와 같은 순차적 데이터를 처리하도록 설계된 일종의 신경망 아키텍처이다.
  • RNN이란?
    이전 시점의 정보를 기억하는 순환 구조를 통해 순차적 데이터(시계열 데이터)를 처리하는 딥 러닝 모델
  • LSTM이란?
    순환 신경망(RNN)의 구조에 장/단기 기억을 가능하게 설계한 신경망의 구조
특징TransformerRNNLSTM
데이터 처리병렬적
(전체 시퀀스 동시처리)
순차적
(직렬 처리)
순차적
(이전 시점의 정보를 순서대로 처리)
핵심 메커니즘Self-Attention 메커니즘
(시퀀스 내의 모든 단어 간의 관게를 파악)
은닉 상태를 이용한 순환 구조게이트를 통해 장기 의존성을 해결
장기 의존성 문제Self-Attention을 통해 시퀀스 내의 모든 위치에
직접 접근하여 장거리 의존성을 효과적으로 모델링
(먼 거리 단어 간 관계 파악 용이)
정보 희석, 기울기 소실 문제가 존재순차 처리의 한계 존재

Positional Embedding이란?

Positional Embedding에서는 각 위치에 대해 고정된 값을 사용하는 대신, 위치 정보를 학습 가능한 임베딩 벡터로 표현한다.
이는 모델이 학습하는 과정에서 고정된 수식을 사용하지 않고 최적의 벡터를 학습하게 된다.

[테이블을 통해 특징별 내용 확인]


Multi-Head Self-Attention, Feed Forward Network (FFN),
Residual Connection, Layer Normalization 알아보기.

  • Multi-Head Self-Attention이란?
    입력 시퀀스에서 각 단어의 연관성을 파악하기 위해,
    여러 개의 셀프 어텐션을 병렬로 수행하고 그 결과를 결합하는 메커니즘.

  • Feed Forward Network (FFN)이란?
    입력층에서 은닉층을 거쳐 출력층으로,
    데이터가 한 방향으로만 전달되는 인공 신경망 구조

  • Residual Connection이란?
    딥러닝 모델, 특히 ResNet에서 사용되는 기법으로,
    레이어의 입력값을 해당 레이어의 출력값에 직접 더해주는 연결 방식

  • Layer Normalization이란?
    각 training case별로 한 레이어의 모든 뉴런에 대한,
    summed input의 평균과 분산을 구해 정규화를 시키는 방법

0개의 댓글