251204_통계_1

DA_LEESUNHO·2025년 12월 4일

Learning Base

목록 보기
15/15

목표

  • 통계를 왜 배워야하는지 답을 할 수 있다.
  • 기술 통계와 추론 통계 차이를 답 할수 있다.
  • 정규분포와 표준화에 대해 이해하고 간단히 설명할 수 있다.

Why 를 달고 살자.

통계 정의 및 쓰임

통계란? → 데이터를 해석하게 해주는 도구
1) 신뢰할 수 있는 추론과 검증을 위함
2) 데이터의 이해를 위함
3) 모델링과 머신러닝의 기반
4) 청자 설득을 위함

✔️ 숙지해야하는 내용

  • 통계에 대한 모든 것을 익힌다는 생각은 버리기
  • 해석을 어떻게 할지(수식에 집중 x) 초점 맞추기

통계 기초

통계학

'모집단'의 성질을 추정, 설명하는 것을 목표

모집단

알고자 하는 대상 전체

추정 방법

: 전수 조사 (모집단 기준) vs 표본 조사 (일부 기준)

표본

모집단의 일부

표본 추출

: 모집단에서 표본(일부)를 뽑는 것
: 표본 크기 → 샘플 수 (행의 갯수)

기술통계 vs 추론통계

기술통계

현재의 데이터를 요약 / 설명하는 통계
중심 경향치 (평균, 중앙값, 최빈값) + 흩어진 정도(분산, 표준편차) + 분포(왜도 / 첨도)

중심 경향치

중앙값 : 데이터 크기를 순서대로 나열 시 정확히 가운데 위치하는 값
→ 이상치 영향을 덜 받음

흩어진 정도

  • 모집단 분산
    : 각 데이터가 평균에서 얼마나 떨어져 있는지 = σ2σ^2
    : (a평균)2+(b평균)2.../전체데이터개수(a - 평균)^2 + (b - 평균)^2 ... /전체 데이터 개수

  • 표준 편차
    : 분산에 루트를 씌운 값 = σσ

  • 분산 확인 그래프(시각화)
    : 히스토그램, 박스플랏, 밀도곡선, 바이올릿플랏 등

분포

  • 왜도 : 데이터 분포의 좌우 비대칭성을 나타내는 척도
  • 첨도 : 뾰족함이나 완만함의 정도를 나타내는 척도

추론 통계

일부(표본) 를 바탕으로 모집단 추정(예측)하거나 주장이 맞는지 검정하는 통계

  • 기술통계와의 차이점
    : 일부를 가지고 모집단을 예측

해당 표본이 얼마나 신뢰할 수 있는 정보인지 추정해야 함.
→ 확률로 불확실성을 다루는 통계

확률 기초

확률

발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현
0<=P(A)<=1 --> 모든 사건의 확률을 전부 더하면 1

확률변수

사건의 결과에 따라 값이 확률적으로 정해지는 변수

이산형

  • 하나 씩 셀 수 있는 변수 ex> 주사위, 나이

연속형

  • 무한히 쪼갤 수 있는 변수, 연속적으로 존재 ex> 키, 수면시간

실현값

  • 실제로 그 확률변수가 가진 구체적인 값

확률 분포

확률 변수가 가질 수 있는 값과 그에 대한 발생 확률 간의 관계를 정리
x축 : 확률변수, y축 : 값이 나올 가능성(확률 or 밀도)

  • 이산형 : 셀 수 있음(유한) - 막대

  • 연속형 : 셀 수 없음(무한) - 곡선
    → 구간(그래프 너비)로 확률을 계산해야 함

✔️추론 통계-확률분포 가 중요한 이유

  • 현실 모집단 관찰 불가 (확률분포로 가정)
  • 표본은 해당 확률 분포에서 나온 실현 값으로 생각
  • 통계적 추론 : 실현값을 바탕, 어떤 분포에서 나왔는지 추정하는 과정

기댓 값

확률 변수가 오랜 반복에서 평균적으로 기대되는 값

실현 값이 많을수록 평균은 기댓 값에 가까워진다.

🔑조건부확률

  • 동시확률분포 (확률변수 2개)
    = 변수 2개를 엮을 때의 확률 분포
    : 독립적이다 = P(X,Y) = P(X) * P(Y)
  • 조건부확률
    : P(X|Y) = Y가 주어졌을 때, X가 일어날 확률

추론통계

  • 추정

    모집단 특성을 알 수 없기에 표본을 통해 추정
    범위를 정하기 위해 표본 평균의 분포가 정규분포를 따른다는 전제 사용

  • 가설검정

profile
성장과 회고를 기록하는 일기장

0개의 댓글