모집단(population)
: 통계에서 연구 대상이 되는 전체 집단
모집단의 모든 객체를 조사하는 건 현실적으로 어렵기 때문에 그래서 표본(sample)을 뽑아서 연구하는 것
표본추출(sampling)
: 모집단으로부터 표본을 추출하는 것, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함
<모집단에서 표본 추출하는 방법>
- 복원추출(Sampling with replacement): 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음
- 비복원추출(Sampling without replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
- Random sampling : 모집단에서 데이터를 추출할 때 주위할 점은 편향되지 않아야하고 각 개체가 모두 동일한 확률로 추출하는 방법
Imbalnced Data(불균형 데이터)
- 데이터가 불균형 데이터일 경우 문제가 발생
- 우리가 예측 모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분임, 그런데 예측 대상이 전체 대비 아주 낮다면? 모형의 성능이 괜찮을까?(ex) 신용 평가 모형 개발, 제조 불량 예측 등
- 해결 방법
1) sampling 기법을 통해서 해결
2) 모델을 통한 성능 개선
Sampling 기법 : 관심의 대상이 아주 비율이 낮은 경우
- over sampling
: target data 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원추출하는 개념) -> 과대적합의 문제 발생 가능
- under sampling
: target data의 많은 class의 수를 적은 class의 비율만큼 감소 시킴, 임의로 뽑은 데이터가 biased(편향)될 수 있고, 모형의 성능이 떨어질수 있음
표본분포(sampling distribution)
: 통계량들이 이루는 분포를 표본 분포라고 함


중심극한정리(central limit theorm), CLT

t-distribution(t분포)
- 모집단의 분산을 모를 때, 표본에서 계산한 표본 평균을 정규 분포 대신 따르는 분포
표본 크기 𝑛이 작을 때(특히 𝑛<30, 정규 분포 대신 사용됨
- 자유도(𝑛−1) 에 따라 모양이 달라지고, 표본 크기가 커질수록 정규 분포에 가까워짐
- 작은 표본에서 평균 비교할 때(t-검정)
- 두 그룹의 평균 차이가 유의미한지 검정할 때

F-distribution(F분포)
- 두 개의 카이제곱 분포를 나눈 값이 따르는 확률 분포
- 두 개의 분산을 비교하는데 사용
- 비대칭적(오른쪽으로 긴 꼬리)를 가짐, 항상 값이 0
- 자유도 d1, d2에 따라 모양이 변함
- 자유도가 증가하면 점점 정규 분포에 가까워짐
- 서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 초론, 분산분석 등에 활용
