multi-head Attention의 필요성

hur-kyuh-leez·2024년 1월 31일

트랜스포머

목록 보기

8/11

context를 더 많이 담기 위해.
각 attention 마다 다른 context를 담을 수 있음.
즉 더 많은 정보를 담기 위해.

예) "I gave my dog Charlie some food"
attention 1 = gave -> I
attention 2 = gave -> Charlie
attention 3 = gave -> food

하나의 attention으로도 하나의 context로 위에 해당 정보를 저장 할 수 있지만,
여러가지 attention으로 여러가지 context를 저장 할 수 있으면 더 많은 context로 인해 train이 수월해짐.
Weights가 random하게 초기 설정 되기 때문에 서로 다른 attention이 같은 context를 저장 할 확률은 낮음.

보통 15~20개의 words가 하나의 sentense를 구성했는데,
15~20개의 multi-head가 아닌
왜 8개의 attention을 하나의 multi-head로 정의 했는 지는 더 알아 볼필요.

hur-kyuh-leez

벨로그에 생각을 임시로 저장합니다. 틀린건 틀렸다고 해주세요 :) 그래야 논리 학습이 강화됩니다.

이전 포스트

Add & Norm 블록에 왜 두개의 input 브랜치가 필요한가

다음 포스트

multi-head Attention의 필요성

트랜스포머

Add & Norm 블록에 왜 두개의 input 브랜치가 필요한가

추천 - 쉬운 트랜스포머 관련 책

0개의 댓글