[통계학 기초] 1113 세션 노트.

Hyunjun Kim·2024년 11월 13일

통계학기초

목록 보기
3/24

추론통계 학습 정리

1. 학습 전 주의 사항

  • 기초 통계 이해 중요: 통계 앞부분을 이해하지 못하면 뒤의 내용 이해 어려움.
  • 반복 학습 추천: 실습 코드와 함께 반복적으로 학습.
  • 실습 필수: 코드를 직접 실행하며 가설 수립 → 검증 → 해석 과정 반복.
  • 데이터 오차 허용 범위 고려: 통계적 판단에서 어느 정도 오차를 허용할지 고민.

2. 데이터 종류와 구분

데이터를 분류하는 이유:
데이터의 형태에 따라 시각화, 통계모델, 분석기법이 달라지기 때문

2-1. 데이터 타입

타입설명세부 유형
수치형숫자로 표현 가능- 연속형: 일정 범위 내 모든 값 가능
- 이산형: 정수만, 횟수 등
범주형범주 값만 가짐, 순서 없는 경우 많음- 명목형: 값 사이 순서 없음
- 순서형: 값 사이 명확한 순서 있음 (예: 만족도)

2-2. 데이터 구분 질문

  1. 값 간 연산 의미가 있는가? → 있으면 수치형, 없으면 범주형
  2. 값 사이에 순서가 있는가? → 있으면 순서형, 없으면 명목형
  3. 값이 끊겨 있는가? → 끊겨 있으면 이산형, 연속적이면 연속형

2-3. 예시

변수유형이유
성별범주형 명목형순서 없음
만족도범주형 순서형순서 존재
수치형 연속형연속값 가능
학생 수수치형 이산형정수로 끊김
시험 등수범주형 순서형순서만 있고 수치 연산 의미 없음

3. 기본 통계 지표

3-1. 대표값

  • 평균(mean), 중앙값(median), 최빈값(mode)
  • 데이터 중심 위치 확인, 분포 이해

3-2. 편차, 분산, 표준편차

  • 편차: 값 − 평균 → 값이 평균에서 얼마나 떨어졌는지
  • 분산: 편차 제곱의 평균 → 편차 합이 0인 문제 해결, 데이터 퍼짐 정도 확인
  • 표준편차: 분산의 제곱근 → 원래 단위로 복원

편차 → 분산 → 표준편차 순으로 발전

4. 모집단과 표본

  • 모집단(population): 분석 대상 전체
  • 표본(sample): 모집단 일부 추출, 통계분석 시 필수
  • 표본분포: 표본 통계량들의 분포, 표본평균 → 중심극한정리(CLT)에 따라 정규분포 근사 가능
  • 표본오차: 표본평균과 모평균 차이, 불가피한 오차

4-1. 중심극한정리

  • 표본 크기가 충분히 크면 표본평균의 분포는 정규분포를 따른다
  • 다양한 모집단에서도 적용 가능

5. 정규분포와 표준화

  • 정규분포: 평균 중심 종 모양, 좌우 대칭, 확률 총합 1
  • 표준정규분포: 평균 0, 분산 1
  • 표준화 공식: z=xμσz = \frac{x - \mu}{\sigma}
  • 표준화 필요성: 머신러닝 모델 학습 시, 변수 범위 차이를 맞춰 동일한 의미로 처리 가능

6. 신뢰구간과 신뢰수준

  • 신뢰구간(Confidence Interval): 특정 확률로 모집단 값이 존재할 범위
  • 신뢰수준(Confidence Level): 신뢰구간에 실제 값이 포함될 확률 (예: 95%)
  • Python 예시:
st.t.interval(0.95, df, mu, se)

7. 학습 포인트 요약

  1. 데이터 종류 파악 → 분석 방법 결정
  2. 대표값과 편차 확인 → 데이터 분포 이해
  3. 표본 추출 → 모집단 추정 → 중심극한정리 활용
  4. 정규분포와 표준화 → 분석 기준 맞추기
  5. 신뢰구간 활용 → 통계적 불확실성 반영
profile
Data Analytics Engineer 가 되

0개의 댓글