기술통계

넘어산·2024년 1월 10일
0

TIL

목록 보기
25/37

정량적 데이터 분석

  • 숫자로 표현되는 수치 데이터를 이용하여 분석
  • 주로 평균, 중앙값, 최빈값을 통해 어느 값을 중심으로 뭉쳐있는지 확인
  • 분산, 표준편차, 분위수, q1(25%), q3(75%)를 통해 어떤 형태로 퍼져있는지 확인

describe()

  • 전반적인 주요 통계 확인
  • Numeric: count, mean, std, 25%, 50%, 75%..
  • Object(String): unique, top, freq

count()

  • column 당 데이터 개수

mean()

  • column 당 데이터 평균
# adult male인 나이 평균
condition = (df['adult_male'] == True)
df.loc[condition, 'age'].mean()

median()

  • 중앙값
  • 이상치가 존재하는 경우 mean보다 median을 선호
  • 짝수라면 데이터의 평균 값 출력

var()

  • 분산
  • 데이터의 값들이 평균으로부터 얼마나 흩뿌려져 있는 지

std()

  • 표준 편차

agg()

  • 복수의 통계 함수 적용

quantitle()

  • 분할 지점
# 10%의 값
df['age'].quantitle(0.1)

mode()

  • 가장 많이 출현한 데이터

corr()

  • 상관관계
  • [-1,1] 사이
  • -1에 가까울 수록 반비례, 1에 가까울 수록 정비례

0개의 댓글