channel은 weight를 각각 지정
self-attention은 각 channel의 관계 간의 weight을 파악 (단어 간의 weight를 구한 matrix와 관계)
attention is all you need 참고
self-attention
query(질문) > key > value
scaled dot-product attention
각 단어의 v1, v2, v3, v4를 vector로 나타낸 후 각각이 query, key, value에 영향, query에 대한 operation을 통해 key, key로 value를 찾는다
단어를 vector로 변환한 후 상관관계를 수치상으로 표현 : The sum of the reweighted values
query와 key의 similarity를 통해 나온 value로 attention이 생성
softmax의 dot-product를 통해 query와 key의 similarity를 찾은 후 value와 연산
블로그 참고
computer vision의 pixel을 하나의 vector로 이해해서 계산
self-attention의 계산량 heavy