지금 우리가 많이 쓰는 ChatGPT, BERT, T5 등 대부분의 모델은 이 논문에서 소개된 Transformer 구조를 기반으로 만들어졌어요.
RNN이나 LSTM처럼 순차적으로 처리하는 구조가 아닌, 모든 토큰을 한 번에 처리할 수 있는 구조가 등장한 거죠.
기존 모델은 문장 내 앞뒤 관계를 처리할 때 시간 순서를 따라야 했어요 (예: RNN).
하지만 트랜스포머는 단순하게 말하면,
"순서? 몰라도 돼.
중요한 건 각 단어가 문장 내에서 누굴 주목(Attention)하느냐야!"
라는 개념으로 동작합니다.
# 위치마다 sin/cos 함수를 기반으로 계산
PE(pos, i) = sin(pos / 10000^(2i/d)) or cos(pos / 10000^(2i/d))
[입력] → Multi-Head Attention → Feed Forward → [출력]
이걸 인코더/디코더로 반복해서 연결!
인코더는 문장 전체를 이해하고,
디코더는 단어를 하나씩 생성하면서 앞 내용을 참고합니다.
기존 방식 Transformer :
RNN 순차 처리, 느림
CNN 위치 정보 약함
Transformer 병렬처리 + 위치 보완 + 성능 뛰어남
논문 기준: 8개의 P100 GPU로 12시간 학습 → SOTA(최고 성능) 달성.
학습 속도도 빠르고, 성능도 좋음.
이후의 BERT, GPT, T5, ViT 같은 모델들의 기반이 됨.
처음엔 수식과 구조가 복잡하게 느껴졌지만,
핵심은 단순합니다:
각 단어가 문장 안에서 누굴 얼마나 중요하게 여길지(Attention) 계산하고,
그 정보만 잘 전달하면 된다!