[Pytorch] Dataset

hyunsooo·2022년 9월 27일

AI-Tech 4기 PyTorch

0

Dataset

__init__() : 데이터를 어떻게 불러올지 정의
__len__() : 데이터의 길이
__getiem__() : 데이터 하나에 대한 반환 정의
데이터 입력 형태를 정의하는 클래스
Image, Text, Audio 등에 따른 다른 입력을 정의한다.

class CustomDataset(Dataset):
	def __init__(self, text, labels):
    	self.labels = labels
        self.data = text
        
    def __len__(self):
    	return len(self.labels)
        
    def __getitem__(self, idx):
    	label = self.labels[idx]
        text = self.data[idx]
        sample = {'Text': text, 'Class': label}
        
        return sample

모든 것을 데이터 생성 시점에 처리할 필요는 없다. (image의 Tensor 변화는 학습에 필요한 시점에 변환)
데이터 셋에 대한 표준화를 정의하는 것(후속 연구에 중요)
최근에는 HuggingFace등 표준화된 라이브러리 사용

DataLoader

하나의 반환 정의를 통해 여러 데이터를 묶어 배치작업을 해준다.
학습직전(GPU feed전) 데이터의 변환을 책임
Tensor로 변환 + Batch 처리가 메인업무
병렬적인 데이터 전처리 코드의 고민이 필요하다.


text = ['Happy', 'Amazing', 'Sad', 'Unhapy', 'Glum']
labels = ['Positive', 'Positive', 'Negative', 'Negative', 'Negative']
MyDataset = CustomDataset(text, labels)

MyDataLoader = DataLoader(MyDataset, batch_size=2, shuffle=True)
next(iter(MyDataLoader))
# {'Text': ['Glum', 'Sad'], 'Class': ['Negative', 'Negative']}

transforms

데이터 전처리, Totensor()와 같이 이미지 데이터를 텐서로 변환

지식 공유

이전 포스트

[Pytorch] Autograd and Optimizer

다음 포스트

[Pytorch] Tensor vs Parameter vs Buffer

0개의 댓글

관련 채용 정보

React FrontEnd 개발자

정보보호 전문 컨설팅 기업인 이지시큐에서 안정적인 환경 속에서 React 프론트엔드 개발자로 성장하세요. 유연한 업무와 성장을 지원하며, SECURIST 플랫폼의 기능 개발에 참여할 기회를 제공합니다.

프론트엔드 엔지니어

펫프렌즈는 반려동물 관련 서비스를 제공하는 국내 1위 펫커머스 기업으로, 사용자의 불편을 줄이기 위해 앱 및 웹 서비스를 개발합니다. ReactJS를 활용한 개발 환경과 자유로운 논의 문화를 통해 개발자로서 성장할 기회를 제공합니다.

[인턴] 프론트 엔드 개발자 (React)

건강한 조직문화를 통한 긍정적 성장을 실현하는 CLAP 서비스에서 프론트 엔드 개발자를 찾습니다. React 경험을 바탕으로 고객 문제 해결을 위한 혁신적인 웹 개발에 함께해요!