모두를 위한 딥러닝 2:: 11-6 PackedSequence

Uomnf97·2021년 8월 23일
0

PackedSequence

Examples of sequential data

예시 : 자연어처리, NLP에 쓰이는 텍스트 data, audio data, video data emd길이가 미정인 데이터가 많음,

How do we make a batch with multiple sequence sizes?

Padding Method

  • 가장 긴 서킷 즉, short circuit이라는 문장의 길이에 맞춰 나머지 data의 뒷부분을 pad라는 token으로 채워넣는 방법
  • 장점 : data가 깔끔하게 batch_size가 가장 긴 sequence길이가 되어서 하나의 Tensor로 표현되기 때문에, 컴퓨터에서 처리하기에 편해지는 장점이 있음
  • 단점 : 계산하지 않는 부분도 계산해야 한다는 단점이 있다.

Packing Method

  • sequence 길이에 대한 데이터를 저장하는 방식으로 진행됨 batch data를 내림차순으로 정렬을 해줘야함.
  • 장점 : ad token을 쓰지 않아도 된다는 장점이 있음
  • 단점 : 내림 차순으로 정렬을 해줘야 한다는 점이나 구현시 padding에 비해 조금 더 복잡하다는 단점이 있다.

PyTorch 함수


profile
사회적 가치를 실현하는 프로그래머

0개의 댓글