| 특징 | Transformer | RNN | LSTM |
|---|---|---|---|
| 데이터 처리 | 병렬적 (전체 시퀀스 동시처리) | 순차적 (직렬 처리) | 순차적 (이전 시점의 정보를 순서대로 처리) |
| 핵심 메커니즘 | Self-Attention 메커니즘 (시퀀스 내의 모든 단어 간의 관게를 파악) | 은닉 상태를 이용한 순환 구조 | 게이트를 통해 장기 의존성을 해결 |
| 장기 의존성 문제 | Self-Attention을 통해 시퀀스 내의 모든 위치에 직접 접근하여 장거리 의존성을 효과적으로 모델링 (먼 거리 단어 간 관계 파악 용이) | 정보 희석, 기울기 소실 문제가 존재 | 순차 처리의 한계 존재 |
Positional Embedding에서는 각 위치에 대해 고정된 값을 사용하는 대신, 위치 정보를 학습 가능한 임베딩 벡터로 표현한다.
이는 모델이 학습하는 과정에서 고정된 수식을 사용하지 않고 최적의 벡터를 학습하게 된다.


Multi-Head Self-Attention이란?
입력 시퀀스에서 각 단어의 연관성을 파악하기 위해, 여러 개의 셀프 어텐션을 병렬로 수행하고 그 결과를 결합하는 메커니즘.
Feed Forward Network (FFN)이란?
입력층에서 은닉층을 거쳐 출력층으로,
데이터가 한 방향으로만 전달되는 인공 신경망 구조
Residual Connection이란?
딥러닝 모델, 특히 ResNet에서 사용되는 기법으로, 레이어의 입력값을 해당 레이어의 출력값에 직접 더해주는 연결 방식
Layer Normalization이란?
각 training case별로 한 레이어의 모든 뉴런에 대한,
summed input의 평균과 분산을 구해 정규화를 시키는 방법