타키탸키
로그인
타키탸키
로그인
[인프런] 데이터 리터러시 3
타키탸키
·
2022년 7월 21일
팔로우
0
0
기술 통계
데이터 요약
통계량을 통해 모수 추정이 가능한가?
통계량
평균, 표준편차
표본의 특성을 수치로 나타낸 것
표본의 대표성
실습 데이터의 이해
분포
다양한 수치로 나타나는 것
분포의 특성
집단에 대한 데이터로 표현되는 고유한 특징이 반복되는 것
통계의 필요성
통계를 통해 단순한 나열이 아닌 데이터 그 자체로부터 분포의 특징이나 패턴을 이끌어낼 수 있다
축약
데이터로 나열되어 있는 많은 숫자를 특정 기준으로 정리정돈해서 의미있는 정보만을 추출하는 것
그래프로 특징 파악(시각화)
숫자 하나로 특징 대표(통계량)
통계량
데이터의 특징을 하나의 숫자로 요약한 것
대표적인 통계량 수치
평균값: 모든 데이터를 대표하는 하나의 수
표준편차: 대표값과 특정 데이터 사이의 거리
산포도
데이터가 대표값(평균/중앙값)에서 얼마나 멀리 떨어져 있는지를 나타낸 것
모든 데이터가 평균값과 같으면 산포도는 0
히스토그램을 통해 다양한 분포 반영
경험 법칙
정규 분포
대칭적인 흙더미 모양의 데이터 집합
평균에서 표준편차 한 배 이내에 약 68%의 데이터 존재
(평균-표준편차)~(평균+표준편차)
일반적인 데이터
표준편차의 두 배 이내에는 95% 데이터 존재
이 범위 밖에 존재하는 데이터는 특별한 데이터
상하위 각각 2.5% or 0.5%
(평균-표준편차*2)~(평균+표준편차*2)
데이터 부트스트랩(Bootstrap)
복원 추출을 반복해 추정값의 변동성에 관한 아이디어를 얻는 과정
재표본 추출을 1000번 반복 >> 평균값 1000개
해당 분포에 대한 히스토그램을 보면 원래 표본의 평균 근처에 부트스트랩 추정값들이 퍼져 있는 것을 확인 가능
표집 분포(Sampling Deistribution)
데이터의 반복되는 표본에서 도출한 추정값의 변동성
추정값들의 불확실성 수치화 가능
부트스트랩 재표본의 평균 중 95%를 포함하는 범위 발견
원래 추정값에 대한 95% 불확실성 구간 혹은 오차 범위
강력한 가정 없이 확률 이론을 이용하지 않고서 추정값의 불확실성을 평가
직관적이고 컴퓨터 집약적인 방법
타키탸키
There's Only One Thing To Do: Learn All We Can
팔로우
이전 포스트
[인프런] 데이터 리터러시 2
다음 포스트
[JAVA] JAVA Platform
0개의 댓글
댓글 작성