Attention

HojunJang·2024년 3월 5일

Attention

  • 배경 : 사람이 글을 읽을 때 모든 단어에 집중하지 않음

    • 문맥에 따라 집중할 단어를 결정할 필요가 있다고 느낌
  • 시퀀스의 길이가 길수록 attention이 없으면 성능이 저하됨

    • RNNsearch/RNNenc
      • Attention 포함/ 미포함 RNN모델
  • Mechanism

    • 인코더의 hidden state를 디코더로 전달(기존 seq2seq는 context vector만 전달)
    • 각 hidden states의 점수 계산 -> 생성 시간 별로 집중할 부분 찾음
    • 여러 time steps에서 모델이 입력의 다른 부분에 focus하도록 함
  • Query/Key/Value

    • Querry(검색어)
    • Key(페이지 제목 ,저자) : Querry를 통해 찾아낸 적절한 속성?
    • Value(내용) : Key에 매핑된 값들
    • attention에서의 Querry Key Value
      다시듣고 추가 이해 필요
profile
일단 취업하고 싶어요

1개의 댓글

comment-user-thumbnail
2024년 3월 5일

입력의 입력 시퀀스 길이가 증가하면 해당 context vector의 전체 정보를 인코딩하는 것이 불가능해지고 시간이 오래걸리기때문

답글 달기