[통계학] 통계야 놀자 01

Data_Student·2024년 11월 13일
0

통계학 기초

목록 보기
7/10

[통계학] 통계야 놀자 01

필수로 숙지하고 넘어가야 하는 개념 ★

  • 분석기법
    • 기초 통계분석
    • 상관분석
    • 회귀분석
    • 분류분석
    • 군집분석
    • RFM분석
  • 분석 방법론 : A/B Test
  • 통계이론
    • 기초 통계이론(편차, 분산, 표준편차)
    • 정규본포와 중심극한정리
    • 신뢰구간과 유의수준
    • 가설 설정
    • 통계적 유의성 검정
    • 통계적 가설 검정

01. 데이터 종류

1) 데이터의 종류를 분류해야하는 이유

  • 데이터의 생김새가 시각화, 해석, 통계모델 결정에 중요한 역할을 하기 때문
  • 수치형 : 숫자를 이용해 표현할 수 있는 데이터( 이산형, 연속형을 포함 )
    • 연속형 : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터
    • 이산형 : 횟수와 값은 정수형 값만 취할 수 있는 데이터
  • 범주형 : 가능한 범주 안의 값만을 취하는 데이터 = 값이 달라짐에 따라 좋거나 나쁘다고 할 수 없는 데이터 = 명목형 ( 이진형, 순서형 포함 )
    • 이진형 : 두개의 값만을 가지고 있는 범주형 데이터
    • 순서형 : 값들 사이에 분명한 순위가 있는 데이터

02. 편차, 분산, 표준편차, 표본분포

1) 대표값 구하기 : 테이블이 주어졌을 때 이를 살펴보는 가장 기초적인 단계는 각 컬럼의 '대표값'을 구하는 것

  • 대표값
    • 평균(mean) : 모든 값의 총 합을 개수로 나눈 값
    • 중앙값(median) : 데이터 중 가운데 위치한 값
    • 최빈값(mode) : 데이터 중 가장 많이 도출된 값

2) 편차, 분산, 표준편차

  • 편차(deviation) : 하나의 값에서 평균을 뺀 값 = 평균으로 얼마나 떨어져 있는지를 의미
    ( 하나의 값 - 평균 )
    모든 편차를 더하면 0이 나오기 때문에 편차로는 분포를 정확히 알 수 없다.
  • 분산(variance) : 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념 = 편차 제곱합의 평균
    avg( (하나의 값)^2 + (하나의 값)^2 + (하나의 값)^2)
  • 표준편차(standard deviation) : 분산에 제곱근(루트)을 씌워준 값 = 원래 단위로 되돌리기!

3) 모집단, 표본, 표본분포

  • 모집단 : 어떤 데이터 집합을 구성하는 전체 대상

  • 표본 : 모집단 중 일부, 모집단의 부분집합 (무작위성)

  • 표본분포 : 표본의 분포, 표본이 흩어져 있는 정도, 표본통계량으로부터 얻은 도수분포

    • 표본평균의 분포 : 중심극한정리에 의해 정규분포를 따를 것을 전제로 가정
    • 표본분산의 분포 : 표본분산들의 분포는 카이제곱 분포를 따른다. 이는 모집단이 정규분포를 따를 때보다 높게 성립
  • 표준오차 : 표본의 표준편차 = 표본평균의 평균과 모평균의 차이

    • 모평균 - 표본평균 : 표준 오차

03. 정규분포

  • 정규분포 : 표본을 선정할 때 그 값이 충분히 크다면 해당 분포는 종 모양의 정규분포를 따른다
    특징

    • 분포는 평균을 중심으로 좌우 대칭의 형태
    • 곡선은 각 확률값을 나타내며, 모두 더하면 1이 된다.
    • 정규분포는 평균과 분산(퍼진정도)에 따라 다른 형태를 가진다
    • 평균 0, 분산 1을 가지는 경우, 이를 표준정규분포라고 한다.
  • 표준정규분포

    • 표준정규분포가 아닐 경우 확률을 계산할 때 어려움이 발생
    • 이를 통일하기 위해 정규분포의 평균과 분산 값을 통일하는 작업인 표준화를 실시
    • 표준화(standard scaler) 공식 : 확률변수 X (값)에서 평균 m을 빼고 표준편차로 나눈 값
      Z = (X - m) / σ
  • 신뢰구간, 신뢰수준

    • 신뢰구간 : 특정 범위 내에 값이 존재할 것으로 예측되는 영역
    • 신뢰수준 : 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률, 주로 95%와 99%를 이용
  • 주의점

    • 신뢰수준이 높아지면 → 신뢰구간이 넓어지지만 → 정확한 예측이 어렵기 때문에 무조건 신뢰수준이 높다고 좋다고 할 수 없음

0개의 댓글