[혼공데분] 4주차 : Chapter 04

숨·2024년 7월 28일

혼공데분 혼공학습단12기

혼공학습단12기_혼공데분

목록 보기

4/6

4주차 진도(7/22 ~ 7/28) : Chapter 04

✅ 기본 미션

p. 279의 확인 문제 5번 풀고 인증하기

✅ 선택 미션

Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기

평균

데이터값 모두 더한 후 데이터 개수로 나눈 값
수식: $\frac{a+b+c}{3}$
Pandas의 df, series 객체 → mean() 함수 사용

중앙값 (median)

전체 데이터 순서대로 늘어 놓았을 때 중앙에 위치한 값
- 데이터 개수 짝수 → 가운데 2개의 값 평균해 결정
describe() 함수의 기본 출력 중 50% 위치의 값 해당
Pandas → median() 함수 사용
- 중복 제거 후 중앙값 계산 시 → drop_duplicates().median()

최솟값

전체 데이터 중 가장 작은 값
Pandas → min() 함수 사용

최댓값

전체 데이터 중 가장 큰 값
Pandas → max() 함수 사용

분위수 (quantile)

데이터를 순서대로 늘어 놓았을 때 균등한 간격으로 나누는 기준점
- 이분위수 = 전체 데이터 두 구간 나눔 → 중앙값 의미
- 사분위수 = 전체 데이터 네 구간 나눔 → 3개
  - 제1사분위수 = 25%
  - 제2사분위수 = 50%
  - 제3사분위수 = 75%
- 백분위 (percentile rank)
  - 해당 값보다 작은지 비교해 불리언 배열 생성
  - True 개수 세서 전체 데이터 개수로 나눔 (mean() 호출)
Pandas → quantile() 함수 사용
- 괄호에 원하는 % 위치 추가
- 리스트 형태로 여러 개 분위수 지정 가능
- interpolation 매개변수
  - 중간 값 계산 방법 결정
  - linear → 양쪽 분위수에 비례해 결정 (기본값)
  - midpoint → 분위수 상관없이 무조건 두 수 사이 중앙값 사용
  - nearest → 두 수 중 가까운 값 선택
  - lower → 두 수 중 작은 값 선택
  - higher → 두 수 중 큰 값 선택
- 보간(interpolation) : 두 지점 사이에 놓인 특정 위치의 값 구하는 방법

분산 (variance)

평균으로부터 데이터가 얼마나 퍼져있는지 나타내는 통계량
- 데이터 가운데 모임 → 분산 작음
- 데이터 넓게 퍼짐 → 분산 큼
데이터의 각 값에서 평균 뺀 후 제곱 → 샘플 개수로 나눠서 계산
제곱 통해 음수 방지 → 좌우 값이 서로 상쇄되지 않도록 만들어줌
Pandas → var() 함수 사용

표준편차 (standard deviation)

평균 중심으로 데이터가 대략 얼만큼 떨어져 분포해 있는지 표현
분산에 제곱근
Pandas → std() 함수 사용

최빈값 (mode)

데이터에서 가장 많이 등장하는 값
Pandas → mode() 함수 사용

📖 내용 정리

이전 포스트

[혼공데분] 3주차 : Chapter 03

다음 포스트

[혼공데분] 5주차 : Chapter 05

0개의 댓글