self attention

Batwan·2025년 11월 4일

논문 리뷰

목록 보기

5/5

Timexer는 attention 메커니즘을 활용하여 데이터 간의 관계를 학습합니다.
이에 따라, attention의 원리를 복습하고 이해도를 높이기 위해 Timexer 코드 리뷰를 진행합니다.

즉, 각 head는 전체 hidden 차원의 일부분(hidden_size / num_heads)만을 담당하여 병렬로 attention 연산을 수행합니다.

AI is my life