[tensorflow]tf.data.Dataset 클래스 파헤치기

건너별·2021년 12월 11일
0

ML

목록 보기
10/21
post-custom-banner

🥰tf.data.Dataset 클래스

  • batch 구성
  • 전처리 함수 매핑
  • shuffle
  • window 데이터셋 구성
  • prefetch 옵션 등

데이터 파이프라인 구축에 매우 유용한 클래스!

📌tf.data.Dataset.from_tensor_slices(x)

  • numpy array x(input)를 Dataset으로 변환

📌tf.data.Dataset.shuffle(buffer_size)

  • 30,000개 데이터, buffer_size = 1,000 이라고 한다면?
  1. 0~999 인덱스 사이에서 랜덤 추출
  2. 추출된 데이터셋을 제외 후
  3. 다음 1000번째 인덱스부터 후보군(buffer)를 보강

📌tf.data.Dataset.window(size,stride,drop_remainder)

[0, 1, 2, 3, 4, 5]

  • size : 몇개의 데이터를 보고 다음 값을 예측할 것인지
  • stride : window의 걸음
  • drop_remainder : True로 설정 시 마지막 꼬다리 값을 제거하여 input에 error를 막음

📌tf.data.Dataset.map(func)

  • 함수 매핑, python의 map과 유사!

📌tf.data.Dataset.flatmap(buffer_size)

  • map과 유사하지만 결과를 flat하게 해줌

📌tf.data.Dataset.batch(batch_size, drop_remainder=False)

  • batch 개수를 입력함.

📌tf.data.Dataset.from_prefetch()

  • 병렬처리로 속도 개선.

📌tf.data.Dataset.zip()

  • python의 zip과 유사한 형태로 dataset 구성함.

Reference

https://youtu.be/NUMzrqxQ4zk

profile
romantic ai developer
post-custom-banner

0개의 댓글