Self-Attention Mechanism - 각 단어가 문장 내 다른 단어와의 연관성을 계산하여 문맥을 이해 - 문서 내의 긴 문장 구조와 핵심 내용 간의 연관성을 파악
Layer Normalization - 모델 학습 시 안정성과 성능 향상을 위해 레이어 별로 정규화 과정을 거침
Residual Connections - 정보를 더욱 효과적으로 전달하기 위해 각 레이어에 이전 레이어의 출력을 더하여 정보 손실을 방지