[Python] Pandas

Jimin_Note·2025년 8월 6일
0

[Python]

목록 보기
42/44
post-thumbnail

Pandas

✅ Pandas 주요특징

  • 빠른 데이터 처리 : NumPy를 기반으로 하여 데이터 처리 속도가 빠르고, 대규모 데이터셋을 효율적으로 다룰 수 있음
  • 편리한 데이터 주고: Series와 DataFrame과 같은 유연하고 강력한 데이터 구조를 제공하여 데이터를 쉽게 조작하고 변형할 수 있다.
  • 라벨 기발 인덱싱 : 인덱스를 사용하여 행과 열을 라벨로 지정할 수 있다. 이로 인해 데이터에 대한 접근과 처리가 직관적이고 용이하다.
  • 다양한 데이터 핸들링 함수 : 결측값 처리, 병합, 조인, GroupBy 등 데이터를 원하는 형태로 구성하는데 필요한 다양한 함수를 지원
  • 데이터 입출력 : Pandas는 csv, 엑셀 파일, SQL 데이터베이스 등 다양한 데이터 포멧으로부터 데이터를 읽어오거나 저장할 수 있다.

✅ Series 자료형

: 1차원 배열 자료형으로 리스트나 ndarray와 유사하나, 구성요소가 다르다

요소는 ndarray

Series 클래스를 이용하여 생성

  • 배열을 이용한 series 생성
import pandas as pd
S1 = pd.Series([1,2,3,4])
S2 = pd.Series([1,2,3,4], index = ['A','B','C','D'])
S3 = pd.Series([1,2,3,4], index = ['A','B','C','D'], dtype = float)
  • 사전을 이용한 시리즈 생성
S4 = pd.Series({'A':1, 'B':2,'C':3, 'D':4}) # 딕셔너리의 키가 인덱스, 값이 값으로 사용

✅ DataFrame의 구조

: 2차원 배열 자료형으로 여러 개의 Series로 구성

DataFrame 생성방법

  • 사전을 이용한 데이터프레임 생성
df = pd.DataFrame({'Name':['Alice','Bob','Charlie], 'Age':[25,30,35], 'City':['New York','Los Angeles','Chicago']})
  • 배열을 이용한 데이터프레임 생성
df = pd.DataFrame([['Alice',25,'New York'],['Bob',30,'Los Angeles'],['Charlie',35,'Chicago']], columns=['Name','Age','City])
profile
Hello. I'm jimin:)

0개의 댓글