[세션] 통계 용어 및 데이터 종류

yeji·2024년 11월 13일
0

Python

목록 보기
16/36

데이터 분석에 사용되는 통계

  • 세션 목차!

데이터 종류

  • 크게 수치형과 범주형으로 나뉨

평균, 중앙값, 최빈값

# 평균 
df['점수'].mean()

# 중앙값
df['점수'].median()

# 최빈값
df['점수'].mode()

통계 용어

  • 편차(deviation) : 하나의 값에서 평균을 뺀 값, 평균으로부터 얼마나 떨어져 있는지를 의미
  • 분산(variance) : 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념, 편차 제곱합의 평균
  • 표준편차 : 분산에 제곱근을 씌워준 값 (원래 단위로 되돌리기 = standard deviation(σ))
  • 표본분포 : 표본의 분포, 표본이 흩어져 있는 정도, 표본통계량으로부터 얻은 도수분포
  • 표준오차 : 표본의 표준편차, 표본평균의 평균과 모평균의 차이
  • 도수 : 특정 구간에 발생한 값의 수
  • 상대도수 : 특정 도수를 전체 도수로 나눈 비율
  • 도수분포표 : 각 값에 대한 도수와 상대도수를 나타내는 표
  • 히스토그램 : 도수분포표를 활용하여 만든 막대그래프
  • 중심극한정리 : 표본을 선정할 때 그 값이 충분히 크다면 해당 분포는 종 모양의 정규분포를 따른다는 것
  • 정규분포 : 종 모양을 띄고 있으며, 분포는 좌우 대칭의 형태, 평균치에서 그 확률이 가장높음
  • 표준정규분포 : 평균 0, 분산 1을 가지는 경우

표준화

  • 분포의 평균과 분산값을 통일하는 작업
  • 확률변수 X(값) 에서 평균 m을 빼고 표준편차로 나눈 값
  • 머신러닝 모델을 만들 때 데이터의 범위가 많이 차이가 나는 경우 사용

신뢰구간, 신뢰수준

  • 신뢰구간 : 특정 범위 내에 값이 존재할 것으로 예측되는 영역
  • 신뢰수준 : 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률, 주로 95%와 99% 이용
import scipy.stats as st
import numpy as np

#샘플 데이터 선언 
sample1 = [5, 10, 17, 29, 14, 25, 16, 13, 9, 17]
sample2 = [21, 22, 27, 19, 23, 24, 20, 26, 25, 23]

df = len(sample1) - 1 # 자유도 : 샘플 개수 - 1
mu = np.mean(sample1) # 표본 평균
se = st.sem(sample1) # 표준 오차

# 95% 신뢰구간 ( = 95% 신뢰하려면 데이터의 범위가 어떻게 되는지?)
st.t.interval(0.95, df, mu, se) # (10.338733110887336, 20.661266889112664)

# 99% 신뢰구간( = 99% 신뢰하려면 데이터의 범위가 어떻게 되는지?)
# 99% 로 신뢰할 수 있어야 하므로, 앞선 95% 보다 데이터 범위가 넓은 점 이해되셨나요? :) 
st.t.interval(0.99, df, mu, se) # (8.085277068873378, 22.914722931126622)
profile
👋🏻

0개의 댓글