[데이터 분석과 비판적 사고]을 읽고-표본,불확실성,통계적 추론
표본,불확실성,통계적 추론
- 모든 정량적 추정은 실제 수치,편향,잡음의 합이다.
- 분석가는 통계적 가설 검정을 통해서 추정치가 잡음으로 인해 발생할 가능성을 판단한다.
- 통계적 유의성과 실질적 유의성은 다른 개념이며 구분해야 한다.
추정
추정치=추정 대상 + 편향 + 잡음
추정치: 분석 결과로 얻는 수치 추정 대상 : 파악하려는 모집단에 존재하는 분석 대상의 실제 수치 편향: 체계적인 이유로 발생하는 오차 잡음: 우연히 발생하는 특이한 오차
=> 우리는 추정치가 추정 대상에 가깝기를 바란다.
=>추정치는 편향과 잡음이라는 이유로,
추정 대상과 차이가 날 수 있다.왜 추정치는 추정 대상과 다를까?
- 추정치가 평균적으로는 추정 대상과 같을지 몰라도,
잡음 때문에 개별 추정치 각각은 추정 대상과 불일치한다.
(잡음은 임의로 발생한다)
- 편향이 있으면 개별 추정치는 물론이고 추정치의 평균도 추정 대상과 달라진다.
(일관된 오차는 편향)
편향
- 추정량은
편향
이 있기 때문에 추정 대상과 차이나는 추정치를 주기도 한다.
=> 어떤 추정량을 매번 독립적인 새로운 표본에 무한히 반복해서 얻은 추정치의 평균값이 추정 대상과 같으면,
이 추정량은편향되지 않았다
라고 한다.잡음
- 모집단에서 표본을 추출하면 필연적으로 추정치에
잡음
이 끼어든다.
=> 개별 추정치는 표본을 추출하기 때문에 나타나는 자연스러운 변동성 때문에 추정 대상과 다소 차이가 난다.
=>이 자연스러운 변동성을표본 변동
이라고 부르며,
잡음을 유발하는 흔한 원인이다.- 다양한 추정치가 서로 가까울수록 추정량이정밀하다.
=> 잡음이 적을수록 정밀한 추정량이다.
(잡음이 거의 없으면 추정량으로 얻은 추정치는 매번 비슷하다.)어떤 추정량이 좋은가?
결과적으로는 편향되지 않고 정밀한 추정량을 찾아야 한다.
=>하지만 두가지 목표는 서로 상충되는 경우가 있어서,
얼마 이상 정밀도를 확보하려면 편향도 어느 정도 감수해야 한다.
- 추정량이 편향되지 않지만, 정밀하지 않다면
=> 추정치는 잡음이 많이 껴서, 추정 대상과 달라진다.- 추정량이 편향되지만 정밀하면,매우 정밀하게 잘못된 수치를 추정하므로 추정치가 추정 대상과 달라진다.
정밀도 정량화하기
- 편향이나 잡음의 가능성을 얼마나 염려해야 하는지 알도록 추정량의 정밀도를 정량화할 필요가 있다.
=>표준 오차
를 사용하여,신뢰 구간을 도출할 수 있다.표준 오차
[표본 분포] 추정량을 수없이 반복 적용해서 얻는 추정치의 분포 =>이 표본 분포의 표준 편차는 '표준 오차' [표준 오차] 추정치가 얼마나 다양하게 변하는지를 측정하므로, 개별 추정치가 평균 추정치로부터 얼마나 빗나가는지 감을 잡게 해준다.
- 표준 오차가 크면 추정치가 넓게 퍼지므로,
그 추정량은 상대적으로 정밀하지 않다.- 표준 오차가 작으면 여러 추정치들이 가깝게 나타나며,
그 추정량은 상대적으로 정밀하다.작은 표본과 극단적인 관찰값
추정치 정밀도가 낮다 (잡음이 크다)
=> 이는 추정치가 어느 쪽으로든 극단적인 값을 가질 가능성이 높다는 것이다.신뢰 구간
정밀도를 계량하는 또 다른 방식
[큰 수의 법칙] 표본 크기가 아주 커지면 잡음은 실질적으로 사라진다. [중심 극한 정리] 실시하는 조사가 편향되지 않고, 반복해서 실시하면 추정치 중 대략 95퍼센트는 추정 대상으로부터 표준 오차의 대략 2배 구간 안에 들어온다
[95 퍼센트 신뢰 구간] 추정치에서 표준 오차의 두 배를 뺀 값부터 추정치에서 표준 오차의 두 배를 더한 값까지 사람들은 종종 실제 값이 95퍼센트 신뢰 구간 안에 들어간다고 95퍼센트 확신한다는 말을 한다. => 하지만 이는 딱 맞는 말이 아니다. => 정확히는 편향이 없는 추정량을 무한히 많이 반복해서 추정하면 실제 추정 대상은 그중 95퍼센트 시도에서 95퍼센트 신뢰 구간에 들어간다고 말할 수 있다.
통계적 추론과 가설 검정
가설 검정
- 추정 대상이 특정 참조 지점보다 크다,작다,다르다 등을 판단하고 싶을 때 =>
가설 검정
고려[상황 예시] 편향되지 않은 여론 조사를 유권자 1,000명을 대상으로 실시해서 공화당 득표율이 .532또는 53.2퍼센트라고 추정 두 후보 지지율이 같은 상황에서 우리가 관찰한 증거가 나올 가능성을 실험한다. => 이러한 무관계 기준은 '귀무 가설'이라고 부른다. [귀무 가설이 참이라는 가정] 두 후보 지지율이 똑같아서, q=.5라는 가정부터 시작 => 그럼 여론 조사 결과를 실시해서 얻은 공화당 지지율이 적어도 우리가 얻은 .532이상일 가능성이 얼마일지 질문해보자. 실제 득표율 q=.5와 조사 대상 1,000명이라는 사실로부터 추정치의 표준 오차를 계산하면 .016이다. =>추정치 .532는 귀무 가설보다 표준 오차의 두 배만큼 크다. =>실제 값에서 표준 오차의 두배 넘게 벗어나는 추정치는 5퍼센트에 불과한다. (이 중 절반은 추정치가 실제 값보다 표준 오차의 두배보다 작다) => 그러므로,공화당 지지율이 높게 나올 확률은 약 2.5%
=> 통계학에서는 이를
단측 z-검정
을 수행한다.통계적 유의성
위에서 귀무 가설이 참이면,
공화당 지지율만큼의 결과를 얻을 확률은 0.25에 불과한다.
=> 이 확률은p-value
라고 부른다.
- 일반적인 전략은 사전에 특정 값을 정하고
(.05를 가장 많이 사용 )
p-value값이 이 문턱값보다 낮으면 귀무 가설 기각하고
대립 가설이 통계적으로 유의한 증거가 있다고 할 수 있다.=>가설 검정이 어떤 결론을 내리지는 않는다.
=> 가설 검정은 데이터에서 발견한 패턴이나 결과가
단지 잡음으로 생긴 부산물이 아니라 실존하는 현상을
반영하는지 여부를 정량적으로 고찰할 수단을 제공한다.전체 모집단 데이터가 있으면 어떻게 할까?
전체 모집단 데이터가 있을 때도 표준 오차와 신뢰구간과 통계적 유의성이 여전히 의미가 있나?
=> 표본이 없으므로 이런 도구는 무의미하다. => 잡음도 없다. => 추정치가 바로 추정 대상이다. => `통계적 추론을 고려할 필요도 없다` =>그러나,전체 모집단 데이터를 확보했다고 해도, 잡음의 개념과 이에 관련된 불확실성 척도를 주목할 충분한 이유가 있다.
운동 경기의 대표 선수 활동 여부와 학점 사이에 작은 양의 상관관계를 발견했다고 가정한다. => 이 상관 관계가 어떤 원인으로 발생하는지 아니면 우연의 일치로 발생하는지 묻는 질문은 여전히 의미가 있다. =>관찰한 패턴이 우연의 일치인지 아닌지 파악하기에는 통계적 추론과 가설 검정 같은 도구가 여전히 유용하다. => 이 문제를 고찰하는 한가지 길은 이 학교의 모든 재학생 데이터를 갖긴 했지만, 이 대학교를 다녔을지도 모를 학생들까지 포함하는 훨씬 더 큰 가상의 모집단을 가정하면, 이 학생들은 단지 작은 표본에 불과하다고 보는 방법이다. 커다란 가상의 모집단에는 사실 상관관계가 없다고 귀무 가설을 세우고, 재학생 데이터로 얻은 상관관계 이상을 우연히 관찰할 가능성을 질문하면 된다.
실질적 유의성 대 통계적 유의성
- 관찰한 현상이 우연한 결과인지 판단하고자 할 때,
통계적 가설 검정
은 대체로 유용하다.통계적 유의성
과실질적 유의성
은 다르며,
이 두가지 개념을 혼용하지 않도록 해야 한다.[통계적 유의성에 관한 질문] 어떤 현상이 존재하는지 아닌지 파악 [실질적 유의성에 관한 질문] - 그 현상이 얼마나 큰지 작은지 - 그래서 그 현상이 중요한지 아닌지
=> 통계적으로 유의한 결과가 전부 실질적으로도 유의하다고 가정하면 안된다.
=> 통계적 추론을 잘 활용하되,동시에 증거로부터 실질적 유의성을 찾도록 항상 유념해야 한다.