[인프런] 데이터 리터러시 3

타키탸키·2022년 7월 21일

0

기술 통계

데이터 요약
- 통계량을 통해 모수 추정이 가능한가?
- 통계량
  - 평균, 표준편차
  - 표본의 특성을 수치로 나타낸 것
- 표본의 대표성

실습 데이터의 이해
- 분포
  - 다양한 수치로 나타나는 것
- 분포의 특성
  - 집단에 대한 데이터로 표현되는 고유한 특징이 반복되는 것

통계의 필요성
- 통계를 통해 단순한 나열이 아닌 데이터 그 자체로부터 분포의 특징이나 패턴을 이끌어낼 수 있다

축약
- 데이터로 나열되어 있는 많은 숫자를 특정 기준으로 정리정돈해서 의미있는 정보만을 추출하는 것
- 그래프로 특징 파악(시각화)
- 숫자 하나로 특징 대표(통계량)

통계량
- 데이터의 특징을 하나의 숫자로 요약한 것
- 대표적인 통계량 수치
  - 평균값: 모든 데이터를 대표하는 하나의 수
  - 표준편차: 대표값과 특정 데이터 사이의 거리

산포도
- 데이터가 대표값(평균/중앙값)에서 얼마나 멀리 떨어져 있는지를 나타낸 것
- 모든 데이터가 평균값과 같으면 산포도는 0
- 히스토그램을 통해 다양한 분포 반영

경험 법칙
- 정규 분포
  - 대칭적인 흙더미 모양의 데이터 집합
- 평균에서 표준편차 한 배 이내에 약 68%의 데이터 존재
  - (평균-표준편차)~(평균+표준편차)
  - 일반적인 데이터
- 표준편차의 두 배 이내에는 95% 데이터 존재
  - 이 범위 밖에 존재하는 데이터는 특별한 데이터
  - 상하위 각각 2.5% or 0.5%
  - (평균-표준편차*2)~(평균+표준편차*2)

데이터 부트스트랩(Bootstrap)
- 복원 추출을 반복해 추정값의 변동성에 관한 아이디어를 얻는 과정
- 재표본 추출을 1000번 반복 >> 평균값 1000개
  - 해당 분포에 대한 히스토그램을 보면 원래 표본의 평균 근처에 부트스트랩 추정값들이 퍼져 있는 것을 확인 가능
  - 표집 분포(Sampling Deistribution)
  - 데이터의 반복되는 표본에서 도출한 추정값의 변동성
- 추정값들의 불확실성 수치화 가능
  - 부트스트랩 재표본의 평균 중 95%를 포함하는 범위 발견
  - 원래 추정값에 대한 95% 불확실성 구간 혹은 오차 범위
- 강력한 가정 없이 확률 이론을 이용하지 않고서 추정값의 불확실성을 평가
  - 직관적이고 컴퓨터 집약적인 방법

There's Only One Thing To Do: Learn All We Can

이전 포스트

[인프런] 데이터 리터러시 2

다음 포스트

[JAVA] JAVA Platform

0개의 댓글