WHERE 어디에 존재하는가
df['어쩌구'].mean()
df['어쩌구'].median()
df['어쩌구'].mode()
HOW 어떻게 존재하는가 = 얼마나 퍼져있는가
개별 값 - 평균
각각의 값 이 평균으로부터 얼마나 떨어져 있는가
편차들을 더하면 항상 합이 0
→ 평균을 기준으로 좌우에 퍼져있기 때문
→ 평균만으로 값들이 퍼진 정도를 파악하기 어려움
편차²의 평균
전체 값 이 얼마나 퍼져있는가
대표적인 값으로 평균을 쓰는데 0이 나와서 정확히 볼 수 없으니까 분산이라는 개념이 추가됨
데이터1 = [30, 70, 80] 평균 60
데이터2 = [20, 60, 100] 평균 60
두 데이터셋 모두 평균은 같으나 같은 데이터가 아님
(데이터 2가 훨씬 흩어져 있음)
→ 하나의 숫자로 '다르다'고 표현하기 위해 '분산'이 필요
분산의 제곱근 → 다시 단위 맞추기 standard deviation(σ)
편향 최소화
전체 데이터 집합
모집단에서 뽑은 일부
표본이 흩어져 있는 정도
(+) 표본평균의 분포
여러 표본 평균의 분포
중심극한정리에 의해 정규분포를 따름
(+) 표준오차 = 표본평균의 오차 범위
데이터 범위가 클때, 머신러닝 성능 향상을 위해 표준화 필수
평균을 중심으로 좌우 대칭인 종 모양 분포
평균 0, 분산 1 → 표준정규분포
정규분포 🔴🟡🟢🔵
표준정규분포🔴
곡선 아래 면적 = 확률
정규분포에서 어떤 값이 나올 확률을 계산하는 게 복잡한데 그걸 간단하게 하기 위해서 필요함
표준화(Z-score)
모든 정규분포를 표준정규분포로 바꾸는게 표준화!
z = (확률변수 x - 평균 m) / 표준편차
모수가 포함될 것으로 예상되는 값의 범위
신뢰구간이 모수를 포함할 확률(보통 95%, 99%)
신뢰수준 ↑ → 신뢰구간 넓어짐 → 정확도 ↓
이해하기 쉬운 예시
scipy 활용
갓동진님께 감사를..
np.random.normal(loc=0.0, sclae=1.0, size=None)
정규분포 형태로 모집단 생성np.random.choice(array, size, replace = True, p=None)
scipy.stats.t.interval(alpha, df, loc=0, scale=1)
가장 기본적인 분포
소수가 큰 영향을 주는 비대칭 분포
표본 수가 적을때 사용
범주형 변수의 독립성/적합도 검정에 사용
결과가 2가지(성공/실패)인 실험의 반복
일정 시간·공간 내 희귀한 사건 발생 수
상황 | 사용 분포 |
---|---|
데이터 수 충분 | 정규분포 |
데이터 수 적음 | t 분포 |
소수가 큰 영향 | 롱테일 분포 |
범주형 독립성/적합도 검정 | 카이제곱 분포 |
성공/실패만 존재 | 이항분포 |
특정 시간·공간 내 발생 수 | 푸아송 분포 |
⚠️ 데이터가 많으면 대부분 정규분포로 수렴 (중심극한정리)
⚠️ 롱테일 분포는 데이터가 많아도 정규분포가 아님!
어떤 표본의 평균이 50이고, 표본 표준편차가 10인 경우, 95% 신뢰구간을 구하세요. (표본 크기는 25로 가정)
- 95% 신뢰구간은 표본 평균 ± (1.96 * 표본 표준오차)로 계산됩니다.
- 표본 표준오차는 표준편차를 표본 크기의 제곱근으로 나눈 값입니다.
t분포 기반 풀이
정규분포 기반 풀이
문제에서 정규분포 활용하라는 조건을 줬기 때문에 정답은 정규분포 기반으로 나온 값이 맞음
두 차이가 뭔지 현지튜터님께 여쭤봐서 정리해보자면
SQL - 자동차 대여 기록에서 장기/단기 대여 구분하기
SQL - 자동차 평균 대여 기간 구하기
Python - 행렬의 덧셈
Python - 직사각형 별찍기
코드카타 62-63✅
코드카타 37-38✅
기초강의 2주차✅
기초강의 3주차❌
세션 1회차✅
통계가 너무 어렵다😭 표'준', 표'본',오차,편차 이런 말들이 아직 헷갈리게 느껴짐 동진님이 세션 끝나자마자 또 떠먹여주셔서 조금 가닥은 잡혔는데 완전히 정확하게 정립되진 않은 것 같아서 복습하는 데 오랜 시간이 걸렸다
그래도 세션 듣고 비슷한 내용의 강의 들으니까 한번 더 복습하는 느낌이라 좋았음 코드로 그리는 건 또 새로운 문제다 보니 전체적으로 진도 나가는게 느렸다
내일은 3주차 강의 듣고, 1회차 세션 다시 복습하려고 한다!
오늘도 동진님께 샤라웃을 바칩니다.. 고맙습니다