판다스와 데이터 프레임

skyepodium·2020년 5월 2일
0

1. 판다스란?

1) 정의

2차원 데이터를 다루기 위한 파이썬 라이브러리

pandas 이름의 유래는 panel data
panel data는 시간에 따른 측정을 포함하는 다차원 데이터입니다.

R 언어의 데이터프레임에 영향을 받았습니다.

동물 판다와는 관련이 없습니다.

2) 2차원 데이터

행과 열로 이루져 있는 데이터

2차원 데이터가 인기 있는 이유

  1. 가장 이해하기 쉬운 구조
  2. 효과적으로 데이터를 담을 수 있는 구조

3) 장점

  1. 편리한 API를 통해 데이터를 쉽게 다룰 수 있습니다.
  2. csv등의 파일을 쉽게 읽고 가공할 수 있습니다.
  3. 가장 인기있는 라이브러리로 레퍼런스가 많습니다.

2. DataFrame

1) 정의

DataFrame은 2차원의 데이터를 저장하는 판다스의 기본 자료형

2) Index

개별 행을 고유하게 식별하는 Key값

3) Series

인덱스와 1개의 칼럼을 가지는 데이터 구조

시리즈의 데이터는 모두 같은 자료형을 가져야합니다.
(문자열과 정수가 섞여있을 수 없습니다.)

DataFrame은 칼럼이 여러개인 자료형

따라서, 데이터프레임은 여러개의 시리즈로 이루어져 있습니다.

3. DataFrame 함수

1) 정의

2차원의 자료형을 만들기 위한 함수

2) parameters

총 5개의 파라미터를 받을 수 있습니다.

주로 data, index, columns를 사용합니다.

data - 입력 데이터 (자료형: list, ndarray, dictionary, DataFrame)
index - 인덱스 설정
columns - 칼럼명 설정

3) 반환값

반환값은 데이터프레임 자료형입니다.

4) 예제

# 판다스는 관례적으로 pd라는 별칭을 붙여서 사용합니다.
import pandas as pd

# 1. 리스트로 생성
df = pd.DataFrame(
    data=[[1, 2, 3]], 
    index=[1], 
    columns=["a", "b", "c"]
)

# 2. 딕셔너리로 생성
# 딕셔너리로 만들때는 columns 사용할 수 없습니다.
df = pd.DataFrame(
    data = {
    "a": [1, 2, 3],
    "b": [4, 5, 6],
    "c": [7, 8, 9]
    },
    index = [1, 2, 3],
)
profile
callmeskye

0개의 댓글