출처 https://www.scalablepath.com/project-management/software-project-estimation
car.xlsx를 이용해서
std(표준편차)
IQR 사분위간 범위(InterQuartile Range)
제3사분위수 제1사분위수
극단값은 최소값 또는 최대값 근처에 있으므로 극단값의 영향이 적음
커널 밀도 추정(Kernel density estimation)
데이터의 밀도를 추정하여 그린 곡선
자주 쓰는 kde
sns.histplot
(x='price', df , kde=True)
파라미터(parameter): 어떤 시스템의 특성을 나타내는 값
모수: 모집단(population)의 파라미터 -> 모집단의 특성을 나타내는 값
예시:
모집단의 평균(모평균)
모집단의 분산(모분산)
주의!
"표본의 크기"를 "모수"라고 하는 경우도 있으나 잘못된 표현
ex) 국민연금 모수개혁안 (바르게 쓴것)
고신용자의 모수 증가(틀리게 쓴것) 모수 -> 숫자
표본에서 얻어진 수로 계산한 값(통계치)
예시:
표본의 평균 표본평균
표본의 분산 표본분산
주의!!
"모집단의 통계량" 이라는 표현은 없음(통계량은 표본에서 구한 값)
"표본의 모수" 같은 말도 없음(모수는 모집단에서 구한 값)
추론 통계 inferential statistics : 표본 통계량을 일반화하여 모집단에 대해 추론 하는 것
ex) 여론조사 100번을 하면 몇 번 정도 신뢰구간 안에 진짜 지지율이 들어가느냐
95% 신뢰수준 = 여론조사를 100번하면 신뢰구간 안에 진짜 지지율이 95번은 들어간다 (5번은 안 들어간다)
40.3% ~ 46.5%
100% 신뢰수준 0% ~ 100% => 아무 의미가 없음(하나마나한 이야기) 쓰지 않는다
높은 신뢰수준 → 많은 표본을 포함 → 넓은 오차범위 → 적은 정보
낮은 신뢰수준 → 적은 표본을 포함 → 좁은 오차범위 → 많은 정보
*오차범위(여유를 주는것)
"적은 정보"의 의미: 신뢰수준이 높다는 것은 다양한 가능성을 고려한다는 의미이므로, 의사결정을 내리기가 어려워짐
신뢰수준은 적절한 수준에서 타협이 필요
의사결정에 필요할 만큼의 정보를 담고 있으면서
충분히 많은 표본을 포함해야 함
교과서적으로는 95%, 99% 등을 추천하나 절대적 기준은 없음
신뢰수준 != 믿을 수 있는 수준
± Window 기준(ㄷ + 한자 -> 6)
같은 신뢰수준에서라도 데이터가 많으면 오차범위가 작다
-> 의사결정에 필요한만큼만 모으면 된다..
T라는 값이 처음 나온 논문을 보면
예로 드는 데이터 개수가 4건
이론적으로는 데이터 개수가 2건만 있어도 통계적으로 올바른 추정은 됨
의사결정할 기준이 불분명 -> 많으면 많을 수록 좋다...(그러나 데이터가 많다는 것은 대체로 돈이 많이 들던지 시간이 든다는 이야기)
오차범위 수준 ±3.1% 틀렸음(저건 전체 1000명일때고...)
대충 서울에서 인원수 200명 정도 조사했을텐데 오차범위는 7% 정도, 인천.경기 따로 표시해줘야 맞는거임
1.96 * 50 / np.sqrt(n)이디어에 지지율이 30%는
(1) 내 사업 아이디어에 지지율이 30%는
나와야 사업을 해볼만하겠다
(2) 10명한테 물어보니까 4명이 지지
(3) 지지율 40% ± 오차범위 30%
= 10% ~ 70%
(4) 몇 명은 더 조사를 해봐야할까?
-> 오차범위를 얼마나 좁혀야하나?
(5) 나는 오차범위가 ±10%까지는 줄어야
결론이 난다
(6) n = 100일 때 오차범위 ±9.8%니까
그 정되면 되겠군
실제로 대통령 선거는
1% 안쪽에서 승패가 결정
9000명은 조사해야함..
여론조사 회사도 영세, 언론사도 경영이 어려움
그냥 1000명 조사하자..(돈과 시간이 없기때문에)
500명은 너무 작아보이고ㅋㅋ