Pytorch dataset to Huggingface dataset

Cramming An·2023년 5월 1일

Early Risk Detection

목록 보기
3/5
post-thumbnail

Motivation

왜 Pytorch dataset 클래스를 HF dataset 클래스로 바꿔야 할까?

  • tokenizing을 할 때, .map 함수를 이용해 빠른 속도의 연산을 하고 싶다.
  • HF trainer에 적절한 datatype이다. (물론 pytorch dataset도 가능함)

How?

변환 방법입니다.

from datasets import Dataset, DatasetDict

raw_train_dataset = Dataset.from_list(**Pytorch dataset**)
raw_dev_dataset = Dataset.from_list(**Pytorch dataset**)
raw_test_dataset = Dataset.from_list(**Pytorch dataset**)

raw_dataset = DatasetDict(
            {"train": raw_train_dataset, "validation": raw_dev_dataset, "test": raw_test_dataset})

reference

profile
La Dolce Vita🥂

0개의 댓글