1) 강의 수강 2) 피어 세션 3) 논문 발표 준비
A(Q,K,V)=softmax(QKT)VA(Q, K, V)=\operatorname{softmax}\left(Q K^{T}\right) VA(Q,K,V)=softmax(QKT)V
A(Q,K,V)=softmax(QKTdk)VA(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) VA(Q,K,V)=softmax(dkQKT)V
input: query, key, value
single attention의 문제점: 단어들이 서로 상호작용하는 방법이 오직 하나!
해결책: Multi-head attention
다음은 다양한 계층 유형에 대한 연산 수, 복잡도, path 최대 길이 등을 보여준다.