1. DataFrame이란?
표(테이블) 형태의 데이터 구조이다
엑셀 파일처럼 행(Row)과 열(Column)이 있는 데이터
2. 기본 구조
가로로 줄을 보면 행(Row)
세로로 칸을 보면 열(Column)

"이름", "나이", "직업"이 열(columns)
"철수", "영희" 정보 한 줄이 행(row)
3. DataFrame을 코딩으로 만들면?
import pandas as pd
data = {
'이름': ['철수', '영희'],
'나이': [25, 30],
'직업': ['개발자', '디자이너']
}
df = pd.DataFrame(data)
print(df)
결과
이름 나이 직업
0 철수 25 개발자
1 영희 30 디자이너
4. DataFrame을 왜 쓰냐?
데이터를 쉽게 다루고 분석
CSV 파일 읽기, 데이터 필터링, 정렬, 그룹핑, 요약통계 등 엄청 쉽게 가능
딥러닝 학습 데이터 관리할 때 많이 사용
예를 들면 이미지 파일 경로, 텍스트 캡션, 레이블(정답) 등을 한 표 안에 정리해놓고, Dataset 클래스에서 한 줄씩 불러서 모델에 입력함
5. DataFrame 안에서 한 줄(row) 가져오기
row = self.df.iloc[idx]
self.df (DataFrame)에서 idx번째 행(row)을 가져옴
가져온 row는 아래와 같이 사용함
row['image'] # 이미지 파일 이름
row['caption'] # 캡션(설명 문장)
딥러닝 데이터 전처리 흐름을 진짜 쉽게 요약하면:
CSV나 Excel 파일을 pandas DataFrame으로 읽는다
DataFrame에서 한 줄(row)씩 꺼낸다
이미지와 캡션을 불러서 전처리한다
모델에 집어넣는다
이게 기본 흐름이다