2차원 데이터를 다루기 위한 파이썬 라이브러리
pandas 이름의 유래는 panel data
panel data는 시간에 따른 측정을 포함하는 다차원 데이터입니다.
R 언어의 데이터프레임에 영향을 받았습니다.
동물 판다와는 관련이 없습니다.
행과 열로 이루져 있는 데이터
2차원 데이터가 인기 있는 이유
DataFrame은 2차원의 데이터를 저장하는 판다스의 기본 자료형
개별 행을 고유하게 식별하는 Key값
인덱스와 1개의 칼럼을 가지는 데이터 구조
시리즈의 데이터는 모두 같은 자료형을 가져야합니다.
(문자열과 정수가 섞여있을 수 없습니다.)
DataFrame은 칼럼이 여러개인 자료형
따라서, 데이터프레임은 여러개의 시리즈로 이루어져 있습니다.
2차원의 자료형을 만들기 위한 함수
총 5개의 파라미터를 받을 수 있습니다.
주로 data, index, columns를 사용합니다.
data - 입력 데이터 (자료형: list, ndarray, dictionary, DataFrame)
index - 인덱스 설정
columns - 칼럼명 설정
반환값은 데이터프레임 자료형입니다.
# 판다스는 관례적으로 pd라는 별칭을 붙여서 사용합니다.
import pandas as pd
# 1. 리스트로 생성
df = pd.DataFrame(
data=[[1, 2, 3]],
index=[1],
columns=["a", "b", "c"]
)
# 2. 딕셔너리로 생성
# 딕셔너리로 만들때는 columns 사용할 수 없습니다.
df = pd.DataFrame(
data = {
"a": [1, 2, 3],
"b": [4, 5, 6],
"c": [7, 8, 9]
},
index = [1, 2, 3],
)