추론통계 학습 정리
1. 학습 전 주의 사항
- 기초 통계 이해 중요: 통계 앞부분을 이해하지 못하면 뒤의 내용 이해 어려움.
- 반복 학습 추천: 실습 코드와 함께 반복적으로 학습.
- 실습 필수: 코드를 직접 실행하며 가설 수립 → 검증 → 해석 과정 반복.
- 데이터 오차 허용 범위 고려: 통계적 판단에서 어느 정도 오차를 허용할지 고민.
2. 데이터 종류와 구분
데이터를 분류하는 이유:
데이터의 형태에 따라 시각화, 통계모델, 분석기법이 달라지기 때문
2-1. 데이터 타입
| 타입 | 설명 | 세부 유형 |
|---|
| 수치형 | 숫자로 표현 가능 | - 연속형: 일정 범위 내 모든 값 가능 - 이산형: 정수만, 횟수 등 |
| 범주형 | 범주 값만 가짐, 순서 없는 경우 많음 | - 명목형: 값 사이 순서 없음 - 순서형: 값 사이 명확한 순서 있음 (예: 만족도) |
2-2. 데이터 구분 질문
- 값 간 연산 의미가 있는가? → 있으면 수치형, 없으면 범주형
- 값 사이에 순서가 있는가? → 있으면 순서형, 없으면 명목형
- 값이 끊겨 있는가? → 끊겨 있으면 이산형, 연속적이면 연속형
2-3. 예시
| 변수 | 유형 | 이유 |
|---|
| 성별 | 범주형 명목형 | 순서 없음 |
| 만족도 | 범주형 순서형 | 순서 존재 |
| 키 | 수치형 연속형 | 연속값 가능 |
| 학생 수 | 수치형 이산형 | 정수로 끊김 |
| 시험 등수 | 범주형 순서형 | 순서만 있고 수치 연산 의미 없음 |
3. 기본 통계 지표
3-1. 대표값
- 평균(mean), 중앙값(median), 최빈값(mode)
- 데이터 중심 위치 확인, 분포 이해
3-2. 편차, 분산, 표준편차

- 편차: 값 − 평균 → 값이 평균에서 얼마나 떨어졌는지
- 분산: 편차 제곱의 평균 → 편차 합이 0인 문제 해결, 데이터 퍼짐 정도 확인
- 표준편차: 분산의 제곱근 → 원래 단위로 복원
편차 → 분산 → 표준편차 순으로 발전
4. 모집단과 표본
- 모집단(population): 분석 대상 전체
- 표본(sample): 모집단 일부 추출, 통계분석 시 필수
- 표본분포: 표본 통계량들의 분포, 표본평균 → 중심극한정리(CLT)에 따라 정규분포 근사 가능
- 표본오차: 표본평균과 모평균 차이, 불가피한 오차
4-1. 중심극한정리
- 표본 크기가 충분히 크면 표본평균의 분포는 정규분포를 따른다
- 다양한 모집단에서도 적용 가능
5. 정규분포와 표준화
- 정규분포: 평균 중심 종 모양, 좌우 대칭, 확률 총합 1
- 표준정규분포: 평균 0, 분산 1
- 표준화 공식: z=σx−μ
- 표준화 필요성: 머신러닝 모델 학습 시, 변수 범위 차이를 맞춰 동일한 의미로 처리 가능
6. 신뢰구간과 신뢰수준
- 신뢰구간(Confidence Interval): 특정 확률로 모집단 값이 존재할 범위
- 신뢰수준(Confidence Level): 신뢰구간에 실제 값이 포함될 확률 (예: 95%)
- Python 예시:
st.t.interval(0.95, df, mu, se)
7. 학습 포인트 요약
- 데이터 종류 파악 → 분석 방법 결정
- 대표값과 편차 확인 → 데이터 분포 이해
- 표본 추출 → 모집단 추정 → 중심극한정리 활용
- 정규분포와 표준화 → 분석 기준 맞추기
- 신뢰구간 활용 → 통계적 불확실성 반영