
왜 Pytorch dataset 클래스를 HF dataset 클래스로 바꿔야 할까?
.map 함수를 이용해 빠른 속도의 연산을 하고 싶다.변환 방법입니다.
from datasets import Dataset, DatasetDict
raw_train_dataset = Dataset.from_list(**Pytorch dataset**)
raw_dev_dataset = Dataset.from_list(**Pytorch dataset**)
raw_test_dataset = Dataset.from_list(**Pytorch dataset**)
raw_dataset = DatasetDict(
{"train": raw_train_dataset, "validation": raw_dev_dataset, "test": raw_test_dataset})
reference