판다스(Pandas)에서 데이터프레임(DataFrame)은 스프레드시트나 SQL 테이블과 유사한 2차원 표 형태의 데이터 구조입니다. 이는 파이썬의 판다스 라이브러리에서 제공하는 핵심 데이터 구조 중 하나로, 데이터를 유연하고 효율적으로 저장하고 조작할 수 있도록 합니다. 데이터프레임의 각 열은 다른 변수를 나타내며, 각 행은 개별적인 관측값을 나타냅니다.
아래 예제를 통해 판다스의 데이터프레임 개념을 설명하겠습니다:
예제 1: 사전(Dictionary)으로부터 데이터프레임 생성하기
학생들과 그들의 시험 점수에 대한 데이터가 있다고 가정해봅시다:
import pandas as pd
data = {
'이름': ['앨리스', '밥', '찰리', '데이비드'],
'나이': [23, 21, 22, 20],
'수학_점수': [85, 78, 92, 68],
'영어_점수': [89, 67, 78, 92]
}
df = pd.DataFrame(data)
print(df)
출력 결과:
이름 나이 수학_점수 영어_점수
0 앨리스 23 85 89
1 밥 21 78 67
2 찰리 22 92 78
3 데이비드 20 68 92
예제 2: CSV 파일로부터 데이터 읽기
대게, 외부 파일에 저장된 데이터를 사용하게 될 것입니다. CSV 파일로부터 데이터를 데이터프레임에 읽어오는 방법을 살펴봅시다:
"students.csv"라는 이름의 CSV 파일이 아래와 같은 내용으로 존재한다고 가정합니다:
이름,나이,수학_점수,영어_점수
앨리스,23,85,89
밥,21,78,67
찰리,22,92,78
데이비드,20,68,92
이제 판다스를 사용하여 CSV 파일을 읽어옵니다:
import pandas as pd
df = pd.read_csv("students.csv")
print(df)
출력 결과:
이름 나이 수학_점수 영어_점수
0 앨리스 23 85 89
1 밥 21 78 67
2 찰리 22 92 78
3 데이비드 20 68 92
데이터프레임을 생성한 후에는 데이터를 필터링하거나 그룹화, 정렬, 통계적 계산 등 다양한 작업을 수행할 수 있습니다. 이는 파이썬에서 데이터를 조작하고 분석하는 강력하고 편리한 방법을 제공합니다.