더운날에도 필요한 패딩(Padding)

서효정·2022년 7월 22일

pad_sequences 함수 패딩

TIL

목록 보기

2/3

패딩(Padding)이란?

padding: 자연어처리 시, 각 문장의 길이나 단어의 길이를 임의로 동일하게 맞추어 주는 작업 (신경망 주입 전 텍스트 > 텐서)

원핫인코딩
- 정수배열을 0과 1로 이루어진 벡터로 변환
- 실수 벡터 데이터를 다룰 수 있는 Dense층을 신경망 첫번째 층으로 설정
- num_words * num_reviews 크기의 행렬 필요 (메모리 사용량 ↑)
패딩
- 정수배열의 길이가 모두 같도록 패딩 추가하여 max_length * num_reviews 크기의 정수 텐서 만들기
- 텍스트 길이는 pad_sequences 함수를 이용해 맞춤

pad_sequences 함수 매개변수 정리

tf.keras.preprocessing.sequences.pad_sequences(
sequences, maxlen=None, dtype='int32', padding='pre',
truncating='pre', value=0.0)
)

sequences: 시퀀스 목록 (각 시퀀스는 정수목록)
maxlen: 모든 시퀀스의 최대 길이
dtype: 출력 시퀀스의 유형 (기본값은 int32)
padding: 'pre' 앖에 빈공간을 0으로 채움, 'post' 뒤에 빈공간을 0으로 채움 (기본값은 'pre')
truncating: 시퀀스 maxlen의 시작이나 끝에서 보다 큰 시퀀스에서 값을 제거
value: 부동 소수점 또는 문자열, 패딩값 (기본값은 0)

서효정

Data Analyst

이전 포스트

텍스트 분석과 자연어 처리

다음 포스트

더운날에도 필요한 패딩(Padding)

TIL

패딩(Padding)이란?

pad_sequences 함수 매개변수 정리

텍스트 분석과 자연어 처리

RNN(순환신경망)

0개의 댓글