
-> 가설검증, 회귀분석 등에 이해하는데 중요하다
모집단에서 표본을 추출하는 방법
복원추출(Sampling with replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출될 수 있음
비복원추출(Sampling without replacement) : 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법
Random Sampling : 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법
데이터가 불균형 데이터일 경우 문제가 생김
우리가 예측모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분임, 그런데 예측 대상이 전체 대비 아주 낮다면? 모형의 성능이 괜찮을까? (ex: 신용 평가 모형 개발, 제조 불량 예측 등)
1) Sampling 기법을 통하여 해결
2) 모델을 통한 성능 개선(ex: Cost-seneitive learning)

Sampling 기법: 관심의 대상의 아주 비율이 낮은 경우
Over Sampling: 타겟 데이터 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원추출하는 개념), 과도적합의 문제 발생할 수 있음
Under Sampling: 타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소시킴, 임의로 뽑은 데이터가 viased(편향)될 수 있고, 모형의 성능이 떨어질 수 있음






-> iid : 모든 펴본이 서로 독립이고 동일한 분포에서 뽑는다
















추정(estimation): 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것을 추정이라고 한다
추정량(estimator): 표본 평균으로 모평균을 추정할 때 표본 평균에 대한 추정량이라고 함
모수를 추정하는 방법에는 점 추정(point estimation)과 구간 추정(interval estimation)이 있음
점추정: 모수를 하나의 특정값으로 추청하는 방법
구간 추정: 모수가 포함될 수 있는 구간을 추정하는 방법


신뢰구간(confidence level) : 추정값이 존재한느 구간에 모수가 포함될 확률
신뢰 수준은 100 * (1 - α)%f로 계산하며, α는 오차 수준임
신뢰 수준 95%라는 것은 구간 추정된 값의 오차가 발생할 확률이 5%라는 것을 의미함
이 오차를 유의 수준(significant level)이라고 하며, p=0.05라고 함
신뢰구간은 신뢰 하한, 신뢰 상한으로 표시하며 아래와 같은 수식으로 표현( 추정하는 모수가 θ)






예시) 20대 전체의 A사 핸드폰 사용률을 알기 위해서 무작위로 500명을 대상을 조사한 결과 212명이 A사 핸드폰을 사용 중이었다. 20대 전체의 A사 핸드폰 사용률에 대한 추정값을 구하고 95% C.I를 구하시오


예시) 20대 전체의 A사 핸드폰 사용률을 알기 위해서 A사용률을 추정에 대한 95% 신뢰구간으로 오차의 한계를 0.01로 하기 위한 표본의 크기는?









예시) ) 20대 남녀 코로나 백신 접종률에 차이가 있는지 보기위해서 100명씩 각각 추출해서 남자의 경우 95명이, 여자의 경우 90명이 접종한것으로 조사되었다. 남녀의 백신 접종률 차이에 대해서 점추정치와 95% 신뢰구간을 구하라
