통계학 공부(1)

고태경·2025년 3월 12일
0

데이터 과학의 프로세스

데이터 수집 > 데이터 가공 > EDA & 데이터 시각화 > ML 모델링 > 결과 해석 및 적용

  • EDA에서 데이터의 분포, 연관성, 확률 등을 통계적으로 깊이 있게 분석
  • 가설을 설정하고 통계적인 분석을 통해 가설을 검정 : 확률분포, 신뢰구간 추정

+++ 이항분포, 정규분포, t 분포... 등등등 기술 통계

머신러닝 vs 전통적 통계학

머신러닝 => 예측 / 전통적 통계학 => 해석

귀무가설 vs 대립가설

귀무가설 : 당연한 것으로 받아들여지는 통설
대립가설 : 귀무가설의 반대 예상, 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용
-> 검정(test)을 통해 증명

중심극한정리

동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리

기술 통계

문자 그대로 주어진 데이터의 특성을 사실에 근거하여 설명하고 묘사하는 것

  • 기술 통계를 내는 것이 EDA
  • 시각화를 많이 사용
  • ex) 대푯값 (평균(가중평균, 기하평균, 조화평균), 최빈값, 중앙값)

추론 통계

표본 집단으로부터 모집단의 특성을 추론 하는 것

++ 모수 parameter

profile
컴퓨터정보과

0개의 댓글