Attention

HojunJang·2024년 3월 5일

배경 : 사람이 글을 읽을 때 모든 단어에 집중하지 않음
- 문맥에 따라 집중할 단어를 결정할 필요가 있다고 느낌
시퀀스의 길이가 길수록 attention이 없으면 성능이 저하됨
- RNNsearch/RNNenc
  - Attention 포함/ 미포함 RNN모델
Mechanism
- 인코더의 hidden state를 디코더로 전달(기존 seq2seq는 context vector만 전달)
- 각 hidden states의 점수 계산 -> 생성 시간 별로 집중할 부분 찾음
- 여러 time steps에서 모델이 입력의 다른 부분에 focus하도록 함
Query/Key/Value
- Querry(검색어)
- Key(페이지 제목 ,저자) : Querry를 통해 찾아낸 적절한 속성?
- Value(내용) : Key에 매핑된 값들
- attention에서의 Querry Key Value
  다시듣고 추가 이해 필요