과거 데이터 수집하고 분석 및 시각화 작업을 진행 후 패턴을 도출, 인사이트를 발견
숫자 요약을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법(미래 예측 : 가설과 확률, 가설 검정이 필요)
모집단에서 표본집단 추출 후 결과의 신뢰성을 검정
즉, 표본집단 결과를 통해 모집단의 데이터를 예측하는 확률
95%의 신뢰수준, 5%의 유의수준(p-value)이 존재
탐색적 데이터 분석 : 데이터 분포가 정규분포를 따르는지 확인, 검증하는 과정
PS
1 . 데이터 조작은 엄연히 불법이지만 분석 방법을 변경해 원하는 결과를 유도하는 것은 데이터 엔지니어의 역량
2. 향후 머신러닝에서 통계 알고리즘을 사용해 다양한 데이터를 분석하고 결론을 내리는 연습을 진행해야함. + 머신러닝 결과 값에서 가장 중요한 값 중 하나는 R-squared임을 기억
불확실성을 수반팩토리얼 생성 시 중단 조건이 매우 중요
t-분포를 사용한 가설 검정
가설 검정은 주제를 선정 후 증명하는 과정
일반적으로 맞다고 가정하는 가설
모집단 평균이 가설 평균과 차이가 없다, 영향력이 없다, 연관성이 없다, 효과가 없다. 즉, 부정적 가설
분석가가 증명하고자 하는 가설
모집단 평균이 가설 평균과 차이가 있다, 영향력이 있다, 연관성이 있다, 효과가 있다
즉, 귀무가설을 부정하는 긍정적 가설
다, 영향을 준다는 것을 확인할 수 있을 뿐 긍정/부정적인 영향을 주는지 확인할 수는 없다
귀무 가설이 맞거나 틀린 것을 증명려는 증거에 해당하는 숫자
관찰된 표본으로부터 구하는 통계량
검정 시 가설의 진위를 판단하는 기준