[인프런] 데이터 리터러시 3

타키탸키·2022년 7월 21일
0

기술 통계

  • 데이터 요약
    • 통계량을 통해 모수 추정이 가능한가?
    • 통계량
      • 평균, 표준편차
      • 표본의 특성을 수치로 나타낸 것
    • 표본의 대표성
  • 실습 데이터의 이해
    • 분포
      • 다양한 수치로 나타나는 것
    • 분포의 특성
      • 집단에 대한 데이터로 표현되는 고유한 특징이 반복되는 것
  • 통계의 필요성
    • 통계를 통해 단순한 나열이 아닌 데이터 그 자체로부터 분포의 특징이나 패턴을 이끌어낼 수 있다
  • 축약
    • 데이터로 나열되어 있는 많은 숫자를 특정 기준으로 정리정돈해서 의미있는 정보만을 추출하는 것
    • 그래프로 특징 파악(시각화)
    • 숫자 하나로 특징 대표(통계량)
  • 통계량
    • 데이터의 특징을 하나의 숫자로 요약한 것
    • 대표적인 통계량 수치
      • 평균값: 모든 데이터를 대표하는 하나의 수
      • 표준편차: 대표값과 특정 데이터 사이의 거리
  • 산포도
    • 데이터가 대표값(평균/중앙값)에서 얼마나 멀리 떨어져 있는지를 나타낸 것
    • 모든 데이터가 평균값과 같으면 산포도는 0
    • 히스토그램을 통해 다양한 분포 반영
  • 경험 법칙
    • 정규 분포
      • 대칭적인 흙더미 모양의 데이터 집합
    • 평균에서 표준편차 한 배 이내에 약 68%의 데이터 존재
      • (평균-표준편차)~(평균+표준편차)
      • 일반적인 데이터
    • 표준편차의 두 배 이내에는 95% 데이터 존재
      • 이 범위 밖에 존재하는 데이터는 특별한 데이터
      • 상하위 각각 2.5% or 0.5%
      • (평균-표준편차*2)~(평균+표준편차*2)
  • 데이터 부트스트랩(Bootstrap)
    • 복원 추출을 반복해 추정값의 변동성에 관한 아이디어를 얻는 과정
    • 재표본 추출을 1000번 반복 >> 평균값 1000개
      • 해당 분포에 대한 히스토그램을 보면 원래 표본의 평균 근처에 부트스트랩 추정값들이 퍼져 있는 것을 확인 가능
      • 표집 분포(Sampling Deistribution)
      • 데이터의 반복되는 표본에서 도출한 추정값의 변동성
    • 추정값들의 불확실성 수치화 가능
      • 부트스트랩 재표본의 평균 중 95%를 포함하는 범위 발견
      • 원래 추정값에 대한 95% 불확실성 구간 혹은 오차 범위
    • 강력한 가정 없이 확률 이론을 이용하지 않고서 추정값의 불확실성을 평가
      • 직관적이고 컴퓨터 집약적인 방법
profile
There's Only One Thing To Do: Learn All We Can

0개의 댓글