✅ CH01: 대표값 이해하기
1. 평균의 종류
산술평균: 가장 일반적인 평균. (총합 ÷ 개수)

기하평균: 곱의 평균. 비율 변화나 성장이 중요한 데이터에 적합.

조화평균: 속도, 비율 등에서 사용. (전체 평균 속도 계산 등)

  1. 평균의 함정
    극단값(outlier)에 의해 평균이 왜곡될 수 있음. 예: 한 명의 고소득자가 평균소득을 끌어올리는 경우.

  2. 중앙값(Median)
    데이터를 순서대로 정렬했을 때 가운데 값. 평균보다 극단값의 영향을 덜 받음.

  3. 최빈값(Mode)
    가장 자주 등장하는 값. 카테고리형 데이터 분석 시 유용.

  4. Project: 파이썬으로 기초 통계량 계산
    mean(), median(), mode() 등의 파이썬 라이브러리 활용 실습.

✅ CH02: 데이터의 분포와 변동성
1. 분산과 표준편차
분산: 평균으로부터 데이터가 얼마나 퍼져있는지 측정.

표준편차: 분산의 제곱근. 단위를 유지하면서 데이터의 흩어짐 측정.

  1. 사분위 범위(IQR)와 이상치 탐지
    IQR: Q3 - Q1 (상위 25%와 하위 25% 사이의 범위)

IQR을 기준으로 이상치(outlier) 탐지 가능.

  1. 변동계수(CV)
    표준편차를 평균으로 나눈 값. 단위와 무관하게 상대적 변동성 비교.

  2. 왜도(Skewness)와 첨도(Kurtosis)
    왜도: 데이터 분포의 비대칭 정도

첨도: 데이터가 중앙에 얼마나 몰려 있는지

  1. Project: 상자 수염 그림(Boxplot) 그리기
    matplotlib, seaborn을 이용해 데이터의 분포 시각화 실습.
profile
"나는 내 노력을 드러내려고 하지 않았고, 그저 내 그림들이 봄날의 밝은 즐거움을 담고 있었으면 했다. 내가 얼마나 노력했는지 아무도 모르게 말이다." - 앙리 마티스

0개의 댓글