🥰tf.data.Dataset 클래스
- batch 구성
- 전처리 함수 매핑
- shuffle
- window 데이터셋 구성
- prefetch 옵션 등
데이터 파이프라인 구축에 매우 유용한 클래스!
📌tf.data.Dataset.from_tensor_slices(x)
- numpy array x(input)를 Dataset으로 변환
📌tf.data.Dataset.shuffle(buffer_size)
- 30,000개 데이터, buffer_size = 1,000 이라고 한다면?
- 0~999 인덱스 사이에서 랜덤 추출
- 추출된 데이터셋을 제외 후
- 다음 1000번째 인덱스부터 후보군(buffer)를 보강
📌tf.data.Dataset.window(size,stride,drop_remainder)
[0, 1, 2, 3, 4, 5]
- size : 몇개의 데이터를 보고 다음 값을 예측할 것인지
- stride : window의 걸음
- drop_remainder : True로 설정 시 마지막 꼬다리 값을 제거하여 input에 error를 막음
📌tf.data.Dataset.map(func)
📌tf.data.Dataset.flatmap(buffer_size)
📌tf.data.Dataset.batch(batch_size, drop_remainder=False)
📌tf.data.Dataset.from_prefetch()
📌tf.data.Dataset.zip()
- python의 zip과 유사한 형태로 dataset 구성함.
Reference
https://youtu.be/NUMzrqxQ4zk