[pandas 기초] DataFrame

서대철·2023년 7월 28일

타전공 대학원생의 데이터 직무 취업 도전기

목록 보기

30/41

판다스(Pandas)에서 데이터프레임(DataFrame)은 스프레드시트나 SQL 테이블과 유사한 2차원 표 형태의 데이터 구조입니다. 이는 파이썬의 판다스 라이브러리에서 제공하는 핵심 데이터 구조 중 하나로, 데이터를 유연하고 효율적으로 저장하고 조작할 수 있도록 합니다. 데이터프레임의 각 열은 다른 변수를 나타내며, 각 행은 개별적인 관측값을 나타냅니다.

아래 예제를 통해 판다스의 데이터프레임 개념을 설명하겠습니다:

예제 1: 사전(Dictionary)으로부터 데이터프레임 생성하기
학생들과 그들의 시험 점수에 대한 데이터가 있다고 가정해봅시다:

import pandas as pd

data = {
    '이름': ['앨리스', '밥', '찰리', '데이비드'],
    '나이': [23, 21, 22, 20],
    '수학_점수': [85, 78, 92, 68],
    '영어_점수': [89, 67, 78, 92]
}

df = pd.DataFrame(data)

print(df)

출력 결과:

      이름  나이  수학_점수  영어_점수
0    앨리스   23        85           89
1      밥   21        78           67
2    찰리   22        92           78
3  데이비드   20        68           92

예제 2: CSV 파일로부터 데이터 읽기
대게, 외부 파일에 저장된 데이터를 사용하게 될 것입니다. CSV 파일로부터 데이터를 데이터프레임에 읽어오는 방법을 살펴봅시다:

"students.csv"라는 이름의 CSV 파일이 아래와 같은 내용으로 존재한다고 가정합니다:

이름,나이,수학_점수,영어_점수
앨리스,23,85,89
밥,21,78,67
찰리,22,92,78
데이비드,20,68,92

이제 판다스를 사용하여 CSV 파일을 읽어옵니다:

import pandas as pd

df = pd.read_csv("students.csv")

print(df)

출력 결과:

      이름  나이  수학_점수  영어_점수
0    앨리스   23        85           89
1      밥   21        78           67
2    찰리   22        92           78
3  데이비드   20        68           92

데이터프레임을 생성한 후에는 데이터를 필터링하거나 그룹화, 정렬, 통계적 계산 등 다양한 작업을 수행할 수 있습니다. 이는 파이썬에서 데이터를 조작하고 분석하는 강력하고 편리한 방법을 제공합니다.

서대철

이전 포스트

[pandas 기초] 시간 데이터 생성하기 date_range()

다음 포스트

[pandas 기초] DataFrame

타전공 대학원생의 데이터 직무 취업 도전기

[pandas 기초] 시간 데이터 생성하기 date_range()

[pandas 기초] loc(), iloc()를 활용한 색인법

0개의 댓글