GPT: 다음 토큰을 예측하는 생성 Task로 학습됨
Decoder-only model의 세가지 특성
2023년 2월에 최초 공개되고나서 벌써 3.2까지 나왔고 3.2는 텍스트 뿐만이 아니라 사진까지 처리 가능한 멀티모달로 나왔음.
그 모든 과정에서
알파카, 비쿠냐 등의 연구가 나왔고 최신 연구 트랜드도 영향을 주고 있음
기존 Transformer의 문제점
여기서 등장한게 바로 Rotery Embedding
Query와 Key 부분에만 한정해서 위치정보를 한번 더 넣어줌
어텐션 레이어 한번 계산 될 때마다 로터리 임베딩의 위치정보를 같이 계산해주면서 상대적인 정보와 절대적인 정보를 같이 이해하도록 함.
Layer Normalization 중에서 더 간소화 된 RMSNorm이 적용됨. 어텐션 계산 후가 아닌 이전에 들어옴.
LLaMA 구조
핵심구성요소
Rotary Positional Embedding, RoPE
Multi-Headed Attention (FFN) + GQA
Multi Layer Perceptron (MLP)
RMS Normalization
Flash Attention 2


출처: https://arxiv.org/pdf/2104.09864


출처: https://arxiv.org/pdf/1706.03762

Root Mean Square Normalization, RMS Norm

batch normalization?
배치 단위 안에서 Mean과 표준편차를 통해 표준화
Layer Normalization
배치 단위가 아니라 Feature scale을 통해서 Meanrhk 표준편차를 통해 표준화 해준다.
그런데 ! Mean과 표준편차 구하는게 꽤나 계산량이 든다는 문제!
그래서 사용하는게 바로 아래의 RMSNorm 다만, RMSNorm은 학습이 되지 않는다
