[Pandas] 데이터 요약하기 - cheat sheet🔥

Jaeyoung·2022년 10월 21일
0
post-thumbnail

목표 설정

  • Pandas Cheat Sheet 에서 데이터 요약, 기술통계 학습하기
  • 학습 부분
    • Summarize Data

기술 통계

  • 기술통계란? 측정이나 실험에서 수집한 자료(data)의 정리, 요약, 해석, 표현 등을 통해 자료의 특성을 규명하는 통계적 방법
  • 데이터프레임을 이루고 있는 정보 요약
    df.info() : 메모리 사용량, 각 컬럼별 데이터타입 등을 알 수 있음

  • 데이터프레임의 행, 열의 수
    df.shape : (행의수, 열의수) 형식 확인 가능

  • 데이터프레임의 행의 수
    len(df)

  • 특정 컬럼의 unique 값에 대한 빈도수
    df[컬럼명].value_counts()

  • 특정 컬럼의 unique 값
    df[컬럼명].unique()

  • 특정 컬럼의 unique 개수
    df[컬럼명].nunique()

  • 수치형 변수에 대한 기술통계
    df.describe()
    : 수치형 데이터에 대한 count, mean, std, min, 25%, 50%, 75%, max 값 확인

  • 범주형 변수에 대한 기술통계
    df.describe(include="object") 또는 df.describe(include="O")
    : 범주형 변수에 대한 count, unique, top, freq 값 확인

  • 집계 함수
    • df.sum(axis, skipna)
      • 행을 기준으로 더하기(defaulf), 열을 기준으로 더하기(axis=1)
      • skipna(기본값:True) : 결과 계산 시, NA/Null 제외

    • df.count(axis)
      • 행을 기준으로 Null값 제외 셀의 개수(defaulf)
      • 열을 기준으로 Null값 제외 셀의 개수(axis=1)

    • df.median() : 중앙값 반환

    • df.quantile(q, axis) : 요청된 축에 대해 지정된 분위수의 값을 반환
      • q : 계산할 분위 수 (기본값 : .5) : 0 <= q <= 1
      • 행을 기준 (기본값 : axis=0), 열을 기준 (axis=1)
      • 예) df.quantile([.25, .75]) : 1사분위와 3사분위에 해당하는 값 반환

    • df.min() : 최솟값

    • df.max() : 최댓값

    • df.mean() : 평균

    • df.var() : 분산

    • df.std() : 표준편차

참고문헌

profile
데이터 분린이:)

0개의 댓글