[통계학] 통계야 놀자 01
필수로 숙지하고 넘어가야 하는 개념 ★
- 분석기법
- 기초 통계분석
- 상관분석
- 회귀분석
- 분류분석
- 군집분석
- RFM분석
- 분석 방법론 : A/B Test
- 통계이론
- 기초 통계이론(편차, 분산, 표준편차)
- 정규본포와 중심극한정리
- 신뢰구간과 유의수준
- 가설 설정
- 통계적 유의성 검정
- 통계적 가설 검정
01. 데이터 종류
1) 데이터의 종류를 분류해야하는 이유
- 데이터의 생김새가 시각화, 해석, 통계모델 결정에 중요한 역할을 하기 때문
- 수치형 : 숫자를 이용해 표현할 수 있는 데이터( 이산형, 연속형을 포함 )
- 연속형 : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터
- 이산형 : 횟수와 값은 정수형 값만 취할 수 있는 데이터
- 범주형 : 가능한 범주 안의 값만을 취하는 데이터 = 값이 달라짐에 따라 좋거나 나쁘다고 할 수 없는 데이터 = 명목형 ( 이진형, 순서형 포함 )
- 이진형 : 두개의 값만을 가지고 있는 범주형 데이터
- 순서형 : 값들 사이에 분명한 순위가 있는 데이터
02. 편차, 분산, 표준편차, 표본분포
1) 대표값 구하기 : 테이블이 주어졌을 때 이를 살펴보는 가장 기초적인 단계는 각 컬럼의 '대표값'을 구하는 것
- 대표값
- 평균(mean) : 모든 값의 총 합을 개수로 나눈 값
- 중앙값(median) : 데이터 중 가운데 위치한 값
- 최빈값(mode) : 데이터 중 가장 많이 도출된 값
2) 편차, 분산, 표준편차
- 편차(deviation) : 하나의 값에서 평균을 뺀 값 = 평균으로 얼마나 떨어져 있는지를 의미
( 하나의 값 - 평균 )
모든 편차를 더하면 0이 나오기 때문에 편차로는 분포를 정확히 알 수 없다.
- 분산(variance) : 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념 = 편차 제곱합의 평균
avg( (하나의 값)^2 + (하나의 값)^2 + (하나의 값)^2)
- 표준편차(standard deviation) : 분산에 제곱근(루트)을 씌워준 값 = 원래 단위로 되돌리기!
3) 모집단, 표본, 표본분포
-
모집단 : 어떤 데이터 집합을 구성하는 전체 대상
-
표본 : 모집단 중 일부, 모집단의 부분집합 (무작위성)
-
표본분포 : 표본의 분포, 표본이 흩어져 있는 정도, 표본통계량으로부터 얻은 도수분포
- 표본평균의 분포 : 중심극한정리에 의해 정규분포를 따를 것을 전제로 가정
- 표본분산의 분포 : 표본분산들의 분포는 카이제곱 분포를 따른다. 이는 모집단이 정규분포를 따를 때보다 높게 성립
-
표준오차 : 표본의 표준편차 = 표본평균의 평균과 모평균의 차이
03. 정규분포