Day40

김재현·2023년 7월 16일

JUPYTER/DL/ML

목록 보기
17/73

추론통계

탐색적 데이터 분석(EDA)-기술통계

과거 데이터 수집하고 분석 및 시각화 작업을 진행 후 패턴을 도출, 인사이트를 발견

확증적 데이터 분석(CDA) - 추론통계

숫자 요약을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법(미래 예측 : 가설과 확률, 가설 검정이 필요)
모집단에서 표본집단 추출 후 결과의 신뢰성을 검정
즉, 표본집단 결과를 통해 모집단의 데이터를 예측하는 확률
95%의 신뢰수준, 5%의 유의수준(p-value)이 존재
탐색적 데이터 분석 : 데이터 분포가 정규분포를 따르는지 확인, 검증하는 과정

PS

1 . 데이터 조작은 엄연히 불법이지만 분석 방법을 변경해 원하는 결과를 유도하는 것은 데이터 엔지니어의 역량
2. 향후 머신러닝에서 통계 알고리즘을 사용해 다양한 데이터를 분석하고 결론을 내리는 연습을 진행해야함. + 머신러닝 결과 값에서 가장 중요한 값 중 하나는 R-squared임을 기억

추론통계 : 모집단에 대한 일반적인 결론을 유도하려는 시도이므로 본질적으로 불확실성을 수반


확률

수학적 확률

통계적 확률

조건부 확률

팩토리얼 생성 시 중단 조건이 매우 중요
t-분포를 사용한 가설 검정


가설검정의 이해

가설검정

가설 검정은 주제를 선정 후 증명하는 과정

귀무가설(영가설)

일반적으로 맞다고 가정하는 가설
모집단 평균이 가설 평균과 차이가 없다, 영향력이 없다, 연관성이 없다, 효과가 없다. 즉, 부정적 가설

대립가설

분석가가 증명하고자 하는 가설
모집단 평균이 가설 평균과 차이가 있다, 영향력이 있다, 연관성이 있다, 효과가 있다
즉, 귀무가설을 부정하는 긍정적 가설
다, 영향을 준다는 것을 확인할 수 있을 뿐 긍정/부정적인 영향을 주는지 확인할 수는 없다

검정 통계량

귀무 가설이 맞거나 틀린 것을 증명려는 증거에 해당하는 숫자
관찰된 표본으로부터 구하는 통계량
검정 시 가설의 진위를 판단하는 기준


0개의 댓글