- 데이터 분석 입문 주차 발제
- 통계학 기초 1~3 주차 수강
-
기술통계와 추론통계
- 기술통계는 데이터의 대표값을 확인, 평균과 중앙값, 분산과 표준편차, 범위.
- 추론 통계에서는 신뢰구간과 가설 검정을 사용하며, 데이터의 일부로 전체를 추정하는 것.
-
분석 방법
- 위치추정 : 평균 및 중앙 값
- 변이추정 : 분산, 표준편차 및 범위 확인
- 분포탐색 : 히스토그램 및 상자 그림
- 상관관계 분석 : Numpy 라이브러리의 np.corrcoef()[0,1] <- [0,0][1,1] 은 동일한 변수의 관계로 항상 1, [0,1]이 첫번째 변수와 두번째 변수의 상관관계임 = [1,0] 과 같다.
- 다변량 분석 : corr method를 통해 확인, heat맵으로 확인.
-
표본오차와 신뢰구간
- 표본오차 : 표본통계량과 모집단통계량의 차이, 표본으로서 발생하는 실제값과의 차이
- 신뢰구간 : 모집단의 실제값이 표본 평균으로 부터 일정 구간 ( = 신뢰구간 ) 내에 존재할 확률을 신뢰수준이라고 한다.
- 계산 : 표본 평균 ± z-score * 표준 편차 / sqrt( 표본 수 ), 이 때 Z-score는 신뢰 수준에 따라 다르며 95 % 신뢰 수준에서 1.96이다.
- 표본 평균 50, 표본 표준편차 10, 표본 크기 25 인 데이터에서 95 % 신뢰 수준의 신뢰 구간은 ? > 50 ± 1.96 * 10 / sqrt(25) = 46.08 ~ 53.92 = 95 % 확률로 모집단의 평균은 해당 신뢰구간 46.08 ~ 53.92 범위 안에서 값을 가진다.
- 해당 표본은 표본 평균으로부터 모수 추정의 신뢰성을 확인하기 위해서이다.
-
분포의 종류
- 정규분포 = 데이터 수가 충분
- 긴 꼬리 long tail 분포 = 데이터 수가 커도 정규분포X 특이적
- student T 분포 = 데이터 수가 부족 ( 일반적으로 30개 미만 )
- 카이제곱 chi-square 분포 = 범주형 데이터, 독립성 또는 적합도 검정
- 이항 binomial 분포 = 결과가 2개로 구분 ( 동전의 앞 뒤, 특정 사건의 성공 실패 여부 )
- 푸아송 Poisson 분포 = 특정 시간 또는 공간에서 사건 발생에 대한 분포