- 입력 데이터의 길이를 동일하게 만들기 위해 사용하는 기법
- 패딩은 입력 데이터의 길이를 일정한 길이로 맞추기 위해, 빈 공간을 특정한 값으로 채우는 작업을 의미한다.
- 대표적으로 0으로 채우는 제로패딩(zero padding)이 사용
- 입력데이터의 최대 길이가 50인 경우, 30 길이의 문장은 나머지 20개의 공간을 0으로 채워 50길이로 맞춤
- 머신러닝 혹은 딥러닝시 학습 및 예측이 용이해지고 연산 속도를 높일 수 있음
- 추출할 데이터
- 데이터의 문장을 하나씩 가져와서 사용해보기
- 각각의 데이터문장들의 정수 인코딩 해보기
- 패딩을 하기 위해 각각의 리스트에서 가장 길이가 긴 리스트의 길이 구하기
- max 길이를 구한뒤 max의 길이보다 작다면 뒤부분에 전부 0으로 채워보기
- shape을 통해 몇행 몇열이 만들어졌는지 확인
- okt객체 만들어 명사추출
- tokenizer 사용해 명사사전
- 문장단위로 인코딩
정수인코딩으로 구성된 데이터에서 최대길이나 어떠한 정해진 길이를 기준으로 해서 부족한 전체리스트를 가지고 최대 길이를 가진 리스트보다 작을 경우 똑같은 사이즈로 맞춰준다.
전체 정수인코딩의 사이즈를 동일하게 맞춰주는데 동일하게 맞출때 그 안을 특정한 숫자나 정수로 채워넣는 방법이 패딩이라고 기억하면 될 것 같다.