241018 TIL Attention 메커니즘, Autoencoder

윤수용·2024년 10월 18일

TIL

목록 보기

37/113

RNN 구조는 LSTM, GRU와 같이 변형을 거쳤음에도 긴 문장을 처리할 때 기억력 한계가 생기고, 문장의 앞뒤 정보가 잘 연결되지 않는 문제가 발생
문장 내의 특정 단어에 가중치를 부여하여 더 효율적으로 문맥을 파악

1) Query, Key, Value
- Query: 현재 위치에서 어느 단어가 중요할 지 묻는 역할을 하는 벡터.
- Key: 문장의 각 단어가 얼마나 중요한 지 나타내는 정보 벡터
- Value: 문장 내의 단어 자체의 정보가 담긴 벡터

2) Query와 Key의 내적
- Query와 Key 간의 유사도를 계산

3) Softmax로 가중치 정규화
- 모든 유사도 값들을 Softmax 함수에 넣어 각 단어의 가중치를 확률처럼 정규화

4) 가중치를 Value에 곱하기
- 각 단어의 Value 벡터에 해당 가중치를 곱함
- 중요도가 높은 단어는 더 크게 반영되고, 중요도가 낮은 단어는 덜 반영함

5) 최종 출력 계산
- 가중치가 곱해진 모든 Value 벡터들을 더해 최종 출력을 만듦
- 이 결과가 다음 레이어나 모델의 예측에 사용

잘 먹고 잘 살자