PyTorch Section 17

최원빈·2023년 7월 6일

0

Pytorch studying

목록 보기

16/17

* 강사님의 자료는 저작권이 있기 때문에 배운 내용을 최대한 간단하게 정리하는 수준으로 작성하였습니다.

Sequence 2 Sequence

기존 딥러닝 모델 $\to$ 입력과 출력 차원이 모두 고정된 사이즈로 제한되는 문제 $\to$ 이를 해결하고자 함
모델 구조
- 인코더 + 디코더 / 내부에는 두개의 RNN 계열 모델
- 인코더로 문장 입력 $\to$ 모든 단어 정보 압축해 Context Vector로 만듬 $\to$ 이를 다시 디코더로 전송
문제점
- 입력데이터가 길면 정보 손실 우려 및, Gradient Vanishing 문제 존재
- 이를 해결하기 위해 Attention 개념 나옴

Attention

동작과정 요약
- 인코더에서 입력마다 hidden state 생성
- 디코더 출력시마다, 당시의 디코더의 hidden state와 인코더의 hidden state간 유사도 계산
- 유사도 정도를 softmax를 통해 계산
- 이를 기반으로 context vector 생성
  - 모든 정보가 아닌 유사도가 높은 입력 정보를 기준으로 압축
- 이를 기반으로 디코더 출력값 계산

Transformer

모델 구조
- 내부에 RNN 계열의 모델을 사용하는 것이 아니라, N개의 인코더와 디코더로 구성됨
- 입력
  - positional encoding
  - multi-head self-attention
  - add & norm
  - position-wise feed forward
- 출력
  - masked multi-head attention
  - encoder-decoder multi-head attention

* written on July 6th

차가운 머리와 따뜻한 마음

이전 포스트

PyTorch Section 15

다음 포스트

PyTorch Last Section

0개의 댓글