251204_통계_1

DA_LEESUNHO·2025년 12월 4일

Learning Base

목록 보기

15/15

목표

통계를 왜 배워야하는지 답을 할 수 있다.
기술 통계와 추론 통계 차이를 답 할수 있다.
정규분포와 표준화에 대해 이해하고 간단히 설명할 수 있다.

Why 를 달고 살자.

통계 정의 및 쓰임

통계란? → 데이터를 해석하게 해주는 도구
1) 신뢰할 수 있는 추론과 검증을 위함
2) 데이터의 이해를 위함
3) 모델링과 머신러닝의 기반
4) 청자 설득을 위함

✔️ 숙지해야하는 내용

통계에 대한 모든 것을 익힌다는 생각은 버리기
해석을 어떻게 할지(수식에 집중 x) 초점 맞추기

통계 기초

통계학

'모집단'의 성질을 추정, 설명하는 것을 목표

모집단

알고자 하는 대상 전체

추정 방법

: 전수 조사 (모집단 기준) vs 표본 조사 (일부 기준)

표본

모집단의 일부

표본 추출

: 모집단에서 표본(일부)를 뽑는 것
: 표본 크기 → 샘플 수 (행의 갯수)

기술통계 vs 추론통계

기술통계

현재의 데이터를 요약 / 설명하는 통계
중심 경향치 (평균, 중앙값, 최빈값) + 흩어진 정도(분산, 표준편차) + 분포(왜도 / 첨도)

중심 경향치

중앙값 : 데이터 크기를 순서대로 나열 시 정확히 가운데 위치하는 값
→ 이상치 영향을 덜 받음

흩어진 정도

모집단 분산
: 각 데이터가 평균에서 얼마나 떨어져 있는지 = $σ^2$
: $(a - 평균)^2 + (b - 평균)^2 ... /전체 데이터 개수$
표준 편차
: 분산에 루트를 씌운 값 = $σ$
분산 확인 그래프(시각화)
: 히스토그램, 박스플랏, 밀도곡선, 바이올릿플랏 등

분포

왜도 : 데이터 분포의 좌우 비대칭성을 나타내는 척도
첨도 : 뾰족함이나 완만함의 정도를 나타내는 척도

추론 통계

일부(표본) 를 바탕으로 모집단 추정(예측)하거나 주장이 맞는지 검정하는 통계

기술통계와의 차이점
: 일부를 가지고 모집단을 예측

해당 표본이 얼마나 신뢰할 수 있는 정보인지 추정해야 함.
→ 확률로 불확실성을 다루는 통계

확률 기초

확률

발생 여부가 불확실한 사건의 발생 가능성을 숫자로 표현
0<=P(A)<=1 --> 모든 사건의 확률을 전부 더하면 1

확률변수

사건의 결과에 따라 값이 확률적으로 정해지는 변수

이산형

하나 씩 셀 수 있는 변수 ex> 주사위, 나이

연속형

무한히 쪼갤 수 있는 변수, 연속적으로 존재 ex> 키, 수면시간

실현값

실제로 그 확률변수가 가진 구체적인 값

확률 분포

확률 변수가 가질 수 있는 값과 그에 대한 발생 확률 간의 관계를 정리
x축 : 확률변수, y축 : 값이 나올 가능성(확률 or 밀도)

이산형 : 셀 수 있음(유한) - 막대
연속형 : 셀 수 없음(무한) - 곡선
→ 구간(그래프 너비)로 확률을 계산해야 함

✔️추론 통계-확률분포 가 중요한 이유

현실 모집단 관찰 불가 (확률분포로 가정)
표본은 해당 확률 분포에서 나온 실현 값으로 생각
통계적 추론 : 실현값을 바탕, 어떤 분포에서 나왔는지 추정하는 과정

기댓 값

확률 변수가 오랜 반복에서 평균적으로 기대되는 값

실현 값이 많을수록 평균은 기댓 값에 가까워진다.

🔑조건부확률

동시확률분포 (확률변수 2개)
= 변수 2개를 엮을 때의 확률 분포
: 독립적이다 = P(X,Y) = P(X) * P(Y)
조건부확률
: P(X|Y) = Y가 주어졌을 때, X가 일어날 확률

추론통계

추정

모집단 특성을 알 수 없기에 표본을 통해 추정
범위를 정하기 위해 표본 평균의 분포가 정규분포를 따른다는 전제 사용
가설검정

DA_LEESUNHO

성장과 회고를 기록하는 일기장

이전 포스트