DataFrame 구조 이해하고 PyTorch Dataset 만들기 (1)

한채림·2025년 5월 7일

pytorch

목록 보기
1/2

1. DataFrame이란?
표(테이블) 형태의 데이터 구조이다
엑셀 파일처럼 행(Row)과 열(Column)이 있는 데이터

2. 기본 구조

  • 가로로 줄을 보면 행(Row)

  • 세로로 칸을 보면 열(Column)

  • "이름", "나이", "직업"이 열(columns)

  • "철수", "영희" 정보 한 줄이 행(row)

3. DataFrame을 코딩으로 만들면?

import pandas as pd

data = {
    '이름': ['철수', '영희'],
    '나이': [25, 30],
    '직업': ['개발자', '디자이너']
}

df = pd.DataFrame(data)
print(df)

결과

   이름  나이     직업
0  철수  25   개발자
1  영희  30  디자이너

4. DataFrame을 왜 쓰냐?
데이터를 쉽게 다루고 분석
CSV 파일 읽기, 데이터 필터링, 정렬, 그룹핑, 요약통계 등 엄청 쉽게 가능
딥러닝 학습 데이터 관리할 때 많이 사용
예를 들면 이미지 파일 경로, 텍스트 캡션, 레이블(정답) 등을 한 표 안에 정리해놓고, Dataset 클래스에서 한 줄씩 불러서 모델에 입력

5. DataFrame 안에서 한 줄(row) 가져오기

row = self.df.iloc[idx]

self.df (DataFrame)에서 idx번째 행(row)을 가져옴
가져온 row는 아래와 같이 사용함

row['image']   # 이미지 파일 이름
row['caption'] # 캡션(설명 문장)

딥러닝 데이터 전처리 흐름을 진짜 쉽게 요약하면:

  1. CSV나 Excel 파일을 pandas DataFrame으로 읽는다

  2. DataFrame에서 한 줄(row)씩 꺼낸다

  3. 이미지와 캡션을 불러서 전처리한다

  4. 모델에 집어넣는다

이게 기본 흐름이다

0개의 댓글