목표
Why 를 달고 살자.
통계란? → 데이터를 해석하게 해주는 도구
1) 신뢰할 수 있는 추론과 검증을 위함
2) 데이터의 이해를 위함
3) 모델링과 머신러닝의 기반
4) 청자 설득을 위함
'모집단'의 성질을 추정, 설명하는 것을 목표
알고자 하는 대상 전체
: 전수 조사 (모집단 기준) vs 표본 조사 (일부 기준)
모집단의 일부
: 모집단에서 표본(일부)를 뽑는 것
: 표본 크기 → 샘플 수 (행의 갯수)
현재의 데이터를 요약 / 설명하는 통계
중심 경향치 (평균, 중앙값, 최빈값) + 흩어진 정도(분산, 표준편차) + 분포(왜도 / 첨도)
중앙값 : 데이터 크기를 순서대로 나열 시 정확히 가운데 위치하는 값
→ 이상치 영향을 덜 받음
모집단 분산
: 각 데이터가 평균에서 얼마나 떨어져 있는지 =
:
표준 편차
: 분산에 루트를 씌운 값 =
분산 확인 그래프(시각화)
: 히스토그램, 박스플랏, 밀도곡선, 바이올릿플랏 등
일부(표본) 를 바탕으로 모집단 추정(예측)하거나 주장이 맞는지 검정하는 통계
해당 표본이 얼마나 신뢰할 수 있는 정보인지 추정해야 함.
→ 확률로 불확실성을 다루는 통계
발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현
0<=P(A)<=1 --> 모든 사건의 확률을 전부 더하면 1
사건의 결과에 따라 값이 확률적으로 정해지는 변수
확률 변수가 가질 수 있는 값과 그에 대한 발생 확률 간의 관계를 정리
x축 : 확률변수, y축 : 값이 나올 가능성(확률 or 밀도)
이산형 : 셀 수 있음(유한) - 막대
연속형 : 셀 수 없음(무한) - 곡선
→ 구간(그래프 너비)로 확률을 계산해야 함
확률 변수가 오랜 반복에서 평균적으로 기대되는 값
실현 값이 많을수록 평균은 기댓 값에 가까워진다.
추정
모집단 특성을 알 수 없기에 표본을 통해 추정
범위를 정하기 위해 표본 평균의 분포가 정규분포를 따른다는 전제 사용
가설검정