[통계학 기초] 1113 세션 노트.

Hyunjun Kim·2024년 11월 13일

통계학기초

목록 보기

3/24

추론통계 학습 정리

1. 학습 전 주의 사항

기초 통계 이해 중요: 통계 앞부분을 이해하지 못하면 뒤의 내용 이해 어려움.
반복 학습 추천: 실습 코드와 함께 반복적으로 학습.
실습 필수: 코드를 직접 실행하며 가설 수립 → 검증 → 해석 과정 반복.
데이터 오차 허용 범위 고려: 통계적 판단에서 어느 정도 오차를 허용할지 고민.

2. 데이터 종류와 구분

데이터를 분류하는 이유:
데이터의 형태에 따라 시각화, 통계모델, 분석기법이 달라지기 때문

2-1. 데이터 타입

타입	설명	세부 유형
수치형	숫자로 표현 가능	- 연속형: 일정 범위 내 모든 값 가능 - 이산형: 정수만, 횟수 등
범주형	범주 값만 가짐, 순서 없는 경우 많음	- 명목형: 값 사이 순서 없음 - 순서형: 값 사이 명확한 순서 있음 (예: 만족도)

2-2. 데이터 구분 질문

값 간 연산 의미가 있는가? → 있으면 수치형, 없으면 범주형
값 사이에 순서가 있는가? → 있으면 순서형, 없으면 명목형
값이 끊겨 있는가? → 끊겨 있으면 이산형, 연속적이면 연속형

2-3. 예시

변수	유형	이유
성별	범주형 명목형	순서 없음
만족도	범주형 순서형	순서 존재
키	수치형 연속형	연속값 가능
학생 수	수치형 이산형	정수로 끊김
시험 등수	범주형 순서형	순서만 있고 수치 연산 의미 없음

3. 기본 통계 지표

3-1. 대표값

평균(mean), 중앙값(median), 최빈값(mode)
데이터 중심 위치 확인, 분포 이해

3-2. 편차, 분산, 표준편차

편차: 값 − 평균 → 값이 평균에서 얼마나 떨어졌는지
분산: 편차 제곱의 평균 → 편차 합이 0인 문제 해결, 데이터 퍼짐 정도 확인
표준편차: 분산의 제곱근 → 원래 단위로 복원

편차 → 분산 → 표준편차 순으로 발전

4. 모집단과 표본

모집단(population): 분석 대상 전체
표본(sample): 모집단 일부 추출, 통계분석 시 필수
표본분포: 표본 통계량들의 분포, 표본평균 → 중심극한정리(CLT)에 따라 정규분포 근사 가능
표본오차: 표본평균과 모평균 차이, 불가피한 오차

4-1. 중심극한정리

표본 크기가 충분히 크면 표본평균의 분포는 정규분포를 따른다
다양한 모집단에서도 적용 가능

5. 정규분포와 표준화

정규분포: 평균 중심 종 모양, 좌우 대칭, 확률 총합 1
표준정규분포: 평균 0, 분산 1
표준화 공식: $z = \frac{x - \mu}{\sigma}$
표준화 필요성: 머신러닝 모델 학습 시, 변수 범위 차이를 맞춰 동일한 의미로 처리 가능

6. 신뢰구간과 신뢰수준

신뢰구간(Confidence Interval): 특정 확률로 모집단 값이 존재할 범위
신뢰수준(Confidence Level): 신뢰구간에 실제 값이 포함될 확률 (예: 95%)
Python 예시:

st.t.interval(0.95, df, mu, se)

7. 학습 포인트 요약

데이터 종류 파악 → 분석 방법 결정
대표값과 편차 확인 → 데이터 분포 이해
표본 추출 → 모집단 추정 → 중심극한정리 활용
정규분포와 표준화 → 분석 기준 맞추기
신뢰구간 활용 → 통계적 불확실성 반영

Hyunjun Kim

Data Analytics Engineer 가 되

이전 포스트

[통계학 기초] 1강. 데이터 분석과 통계

다음 포스트

[통계학 기초] 1113 세션 노트.

통계학기초

추론통계 학습 정리

1. 학습 전 주의 사항

2. 데이터 종류와 구분

2-1. 데이터 타입

2-2. 데이터 구분 질문

2-3. 예시

3. 기본 통계 지표

3-1. 대표값

3-2. 편차, 분산, 표준편차

4. 모집단과 표본

4-1. 중심극한정리

5. 정규분포와 표준화

6. 신뢰구간과 신뢰수준

7. 학습 포인트 요약

[통계학 기초] 1강. 데이터 분석과 통계

[통계학 기초] 1114 세션 노트

0개의 댓글