context를 더 많이 담기 위해.
각 attention 마다 다른 context를 담을 수 있음.
즉 더 많은 정보를 담기 위해.
예) "I gave my dog Charlie some food"
attention 1 = gave -> I
attention 2 = gave -> Charlie
attention 3 = gave -> food
하나의 attention으로도 하나의 context로 위에 해당 정보를 저장 할 수 있지만,
여러가지 attention으로 여러가지 context를 저장 할 수 있으면 더 많은 context로 인해 train이 수월해짐.
Weights가 random하게 초기 설정 되기 때문에 서로 다른 attention이 같은 context를 저장 할 확률은 낮음.
보통 15~20개의 words가 하나의 sentense를 구성했는데,
15~20개의 multi-head가 아닌
왜 8개의 attention을 하나의 multi-head로 정의 했는 지는 더 알아 볼필요.