Attention
-
배경 : 사람이 글을 읽을 때 모든 단어에 집중하지 않음
- 문맥에 따라 집중할 단어를 결정할 필요가 있다고 느낌
-
시퀀스의 길이가 길수록 attention이 없으면 성능이 저하됨
-
Mechanism
- 인코더의 hidden state를 디코더로 전달(기존 seq2seq는 context vector만 전달)
- 각 hidden states의 점수 계산 -> 생성 시간 별로 집중할 부분 찾음
- 여러 time steps에서 모델이 입력의 다른 부분에 focus하도록 함
-
Query/Key/Value
- Querry(검색어)
- Key(페이지 제목 ,저자) : Querry를 통해 찾아낸 적절한 속성?
- Value(내용) : Key에 매핑된 값들
- attention에서의 Querry Key Value
다시듣고 추가 이해 필요
입력의 입력 시퀀스 길이가 증가하면 해당 context vector의 전체 정보를 인코딩하는 것이 불가능해지고 시간이 오래걸리기때문