[혼공데분] 4주차 : Chapter 04

·2024년 7월 28일
0
post-thumbnail

4주차 진도(7/22 ~ 7/28) : Chapter 04

✅ 기본 미션

p. 279의 확인 문제 5번 풀고 인증하기


✅ 선택 미션

Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기

평균

  • 데이터값 모두 더한 후 데이터 개수로 나눈 값
  • 수식: a+b+c3\frac{a+b+c}{3}
  • Pandas의 df, series 객체 → mean() 함수 사용

중앙값 (median)

  • 전체 데이터 순서대로 늘어 놓았을 때 중앙에 위치한 값
    • 데이터 개수 짝수 → 가운데 2개의 값 평균해 결정
  • describe() 함수의 기본 출력 중 50% 위치의 값 해당
  • Pandas → median() 함수 사용
    • 중복 제거 후 중앙값 계산 시 → drop_duplicates().median()

최솟값

  • 전체 데이터 중 가장 작은 값
  • Pandas → min() 함수 사용

최댓값

  • 전체 데이터 중 가장 큰 값
  • Pandas → max() 함수 사용

분위수 (quantile)

  • 데이터를 순서대로 늘어 놓았을 때 균등한 간격으로 나누는 기준점
    • 이분위수 = 전체 데이터 두 구간 나눔 → 중앙값 의미
    • 사분위수 = 전체 데이터 네 구간 나눔 → 3개
      • 제1사분위수 = 25%
      • 제2사분위수 = 50%
      • 제3사분위수 = 75%
    • 백분위 (percentile rank)
      • 해당 값보다 작은지 비교해 불리언 배열 생성
      • True 개수 세서 전체 데이터 개수로 나눔 (mean() 호출)
  • Pandas → quantile() 함수 사용
    • 괄호에 원하는 % 위치 추가
    • 리스트 형태로 여러 개 분위수 지정 가능
    • interpolation 매개변수
      • 중간 값 계산 방법 결정
      • linear → 양쪽 분위수에 비례해 결정 (기본값)
      • midpoint → 분위수 상관없이 무조건 두 수 사이 중앙값 사용
      • nearest → 두 수 중 가까운 값 선택
      • lower → 두 수 중 작은 값 선택
      • higher → 두 수 중 큰 값 선택
    • 보간(interpolation) : 두 지점 사이에 놓인 특정 위치의 값 구하는 방법

분산 (variance)

  • 평균으로부터 데이터가 얼마나 퍼져있는지 나타내는 통계량
    • 데이터 가운데 모임 → 분산 작음
    • 데이터 넓게 퍼짐 → 분산 큼
  • 데이터의 각 값에서 평균 뺀 후 제곱 → 샘플 개수로 나눠서 계산
  • 제곱 통해 음수 방지 → 좌우 값이 서로 상쇄되지 않도록 만들어줌
  • Pandas → var() 함수 사용

표준편차 (standard deviation)

  • 평균 중심으로 데이터가 대략 얼만큼 떨어져 분포해 있는지 표현
  • 분산에 제곱근
  • Pandas → std() 함수 사용

최빈값 (mode)

  • 데이터에서 가장 많이 등장하는 값
  • Pandas → mode() 함수 사용


📖 내용 정리

0개의 댓글