추론
제한된 데이터로 주어진 실험 결과를 더 큰 과정 또는 모집단에 적용하려는 의도를 반영
두 처리 방법, 제품, 절차 중 어느 쪽이 더 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어서 진행하는 실험
처리 방법 중 하나는 기준이 되는 기존방법이거나 아무런 처리도 적용하지 않는 방법이 됨 (대조군)
새로운 처리법을 적용하는 것이 대조군보다 나을 것이라는 가설을 가짐 (처리군)
A/B 검정에는 둘 중 어느 한 쪽 처리를 할당할 수 있는 대상이 주어짐
핵심은 피험자가 어떤 특징 처리에 노출된다는 것
피험자는 무작위로 처리에 할당
처리 그룹 간 차이
그룹 간 비교하는 데 사용되는 검정통계량 또는 측정 지표에 주의를 기울여야 함
대조군이 없다면 다른 것들은 동일하다는 보장이 없으며 어떤 차이가 처리 때문인지 확신할 수 없음
관심 처리를 뺀 나머지는 처리 그룹과 동일한 조건 적용
A/B 검정은 유일한 통계 실험 유형은 아님
피실험자를 대상으로 반복 측정 할 수 있음
전통적인 의미의 통계적 실험설계는 특정 처리법의 효과에 대한 정적인 질문에 답하는 데 초점을 맞춤
관찰 효과가 우연에 의한 것인지의 여부를 알아내는 것
통계적 가설검정은 연구자가 랜덤하게 우연히 일어난 일에 속지 않도록 보호하기 위한 방법
적절하게 설계된 A/B 검정에서는 A와 B 사이의 관찰된 차이가 우연한 대상 선정 혹은 A와 B의 진정한 차이로 설명될 수 있도록 데이터를 수집
가설검정은 실제로 우연히 일어난 일이지만, 흔하지 않다는 것에 주목하고 그것이 뭔가 의미가 있고 우연이 아닐것이라고 해석하려는 인간의 경향을 감안하여 실험에서 얻은 그룹 간의 차이가 랜덤을 통해 얻을 수 있는 합리적인 수준과는 더 극단적으로 달라야 한다는 증거를 보여야 함
그룹 간 차이는 우연에 의한 결과라는 것을 기본 가정으로 설정하고 이를 귀무가설이라고 함
귀무가설이 틀렸다는 것을 입증하여 A와 B의 차이가 우연이 아니라는 것을 보여주는 것이 목표
재표본추출 순열검정을 통한 방법
A와 B 그룹의 결과를 서로 섞어 비슷한 크기의 그룹을 반복적으로 만들어 관찰된 차이가 각 경우 발생되는 차이들과 비교했을 때 얼마나 극단적인지 관찰
귀무가설뿐만 아니라 그와 대립하는 가설 포함
귀무가설과 대립가설이 모든 가능성을 설명
A/B 검정에서 새로운 옵션이 완벽히 더 나은 것으로 입증되지 않는 이상 기본 옵션을 계속 사용한다는 것을 가정
일원 가설검정
우연에 의한 극단적인 결과에 대해 한 방향만을 고려하여 p 값을 계산
어느 쪽으로도 속지 않도록 가설검정을 원한다면 대립가설은 양방향, 즉 이원 가설
우연에 의한 극단적인 결과가 양쪽에서 나타날 p 값을 계산
랜덤한 변동성을 알아보자는 일반적인 목표로 관찰된 데이터의 값에서 표본을 반복적으로 추출
일부 머신러닝 모델의 정확성 평가, 향상을 위해서도 적용할 수 있음 (배깅)
순열 과정에는 두 개 이상의 표본이 관여, 이들은 통상적으로 A/B 또는 기타 가설검정을 위해 사용되는 그룹
여러 전체 그룹의 결과를 단일 데이터로 결합하여 무작위로 그룹을 뽑아 가설을 검정하고 서로 얼마나 다른지 판단
관찰된 차이가 대부분 순열 분포 바깥에 있다면 우연 때문이 아니라고 결론 내릴 수 있고 통계적으로 유의미하다고 볼 수 있음
전체순열검정
데이터를 무작위로 섞고 나누는 대신 실제로 나눌 수 있는 모든 조합을 찾음
샘플 크기가 작을 때 실용적
셔플링을 많이 반복할수록 임의순열검정과 전체순열검정 결과는 거의 유사하게 근접
유의미하다는 애매한 결론이 아닌 좀 더 정확한 결론을 보장함
이 때문에 정확검정이라고도 함
부트스트랩 순열검정에서는 비복원 추출이 아닌 복원추출로 수행
임의성을 보장할 뿐만 아니라 개체가 처리 그룹에 할당될 때에도 임의성 보장
순열검정은 랜덤한 변이가 어떤 역할을 하는지 알아보기 위해 사용되는 휴리스틱한 검정
통계적 유의성이란 실험 결과가 우연히 일어난 것인지 우연히 일어날 수 없는 극단적인 것인지 판단하는 방법
우연히 벌어질 수 있는 변동성의 바깥에 존재한다면 통계적으로 유의하다고 말함
그래프를 눈으로 보는 것보다는 p 값과 같이 통계적 유의성을 정확히 측정하기 위한 지표 필요
확률모형이 관측된 결과보다 더 극단적인 결과를 생성하는 빈도
순열검정으로 얻은 결과 중 관찰된 차이와 같거나 더 큰 차이를 보이는 경우의 비율
우연히 얻은 결과의 5%보다 더 극단적인 결과와 같이 어떤 임계값을 미리 지정하는 것을 선호
이 임계값을 보통 유의수준(알파)라고 함
5%와 1%가 많이 사용됨
p 값을 통해 전달하고자 하는 의미
결과가 우연에서 비롯될 확률
더 낮은 p 값을 원하고 결국 뭔가 증명했다고 결론을 내릴 수 있길 바람
실제 p 값의 의미
랜덤 모델이 주어졌을 때 그 결과과 관찰된 결과보다 더 극단적인 확률
p 값이 유의미하다고 해서 그것이 기대처럼 바로 증거가 되는 것은 아님
2종 오류는 표본크기가 너무 작아서 효과를 알아낼 수 없다고 판단하는 것과 같음
p 값이 통계적 유의성에 미치지 못하는 경우 실제 의미는 효과가 아직 입증되지 않았다는 뜻
표본 크기가 더 커질수록 p 값이 더 작아짐
관심 있고 유용한 모델의 결과가 일반적인 랜덤 변이의 범위 내에 있는지를 알고 싶을 때 유용한 측정 지표
데이터가 횟수나 측정값을 포함하는지, 표본이 얼마나 큰지, 측정 대상이 무엇인지에 따라 다양한 유형의 유의성 검정 방법이 있음
가장 자주 사용되는 것은 t 검정
모든 유의성 검정은 관심 있는 효과를 측정하기 위한 검정통계량을 지정, 관찰된 효과가 정상적인 랜덤 변이의 범위 내에 있는지 여부를 판단하는 데 도움을 줌
20개의 예측변수와 1개의 결과변수가 모두 임의로 생성되었다고 가정
유의수준 0.05에서 20번의 일련의 유의성 검정을 수행하면 적어도 하나의 예측변수에서 통계적으로 유의미한 결과를 초래할 가능성이 있음 (1종 오류)
추가하는 변수가 많을수록 또는 더 많은 모델을 사용할수록 뭔가가 우연에 의해 유의미한 것으로 나타날 확률이 커짐
지도 학습에서는 이런 위험을 낮추기 위해 홀드아웃 세트를 사용해서 이전에 보지 못했던 데이터를 통해 모델을 평가
표본 데이터에서 계산된 통계량에 적용되며 변화가 가능한 값들의 수를 나타냄
10개의 값으로 이뤄진 표본에서 평균과 9개의 값을 알고 있다면 마지막 10번째 값을 자연스럽게 알 수 있음
나머지 한 개의 값을 제외한 9개의 값만 변화 가능함
분산과 표준편차에 대한 계산에서 분모에 표시된 n-1을 자유도라고 부름
표본을 통해 모집단의 분산을 추정하고자 할 때 분모에 n을 사용하면 추정치가 살짝 아래쪽으로 편향될 것
분모에 n-1을 사용하면 추정값에 편향이 발생하지 않음
회귀에서 요인변수를 사용할 때 완전히 불필요한 예측변수들이 있는 경우 회귀 알고리즘을 사용하기 어려움
범주형 변수를 이진 지표로 요인화할 때 가장 많이 발생
월~토 지표를 포함하면서 동시에 일요일까지 포함한다면 다중공선성 오차로 인해 회귀를 실패하게 됨
여러 그룹 간의 통계적으로 유의미한 차이를 검정하는 절차
ANOVA(Analysis of variance)
두 그룹의 평균을 비교하기 위해 순열검정 대신 t 검정을 사용할 수 있는 것처럼 F 통계량을 기반으로 한 ANOVA 통계 검정도 있음
잔차 오차로 인한 분산과 그룹 평균의 분산에 대한 비율을 기초로 함
이 비율이 높을수록 통계적으로 유의미하다고 할 수 있음
상호작용 효과를 확인하는 식
총평균 효과와 처리 효과를 확인한 후 각 그룹을 이원으로 분리
부분집합들에 대한 평균과 처리 평균 사이의 차이를 찾음
A/B 검정을 넘어 동시에 여러 가지 처리를 한 번에 테스트할 필요가 있음
카이제곱검정은 횟수 관련 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지 검정
변수 간 독립성에 대한 귀무가설이 타당한지를 평가하기 위해 r x c 분할표를 사용
피어슨 잔차들의 제곱함
카이제곱통계량의 분포가 카이제곱분포로 근사화될 수 있음을 보여줌
적절한 표준 카이제곱분포는 자유도에 의해 결정됨
카이제곱분포는 재표본 검정의 좋은 근사치를 제공
사건 발생 횟수가 매우 낮을 때는 예외이지만 예외적인 경우에도 재표본추출 방법을 통해 더 정확한 p 값을 얻을 수 있음
실험설계에 대한 전통적인 통계적 접근 방식보다 명시적인 최적화와 좀 더 빠른 의사 결정을 가능하게 하며, 여러 테스트를 위해 이를 사용
전통적인 A/B 검정은 특정하게 설계된 실험을 통해 수집된 데이터를 이용하여 A, B 둘 중 어느 쪽이 더 좋은가? 와 같이 정해진 질문에 답을 줌
답을 얻고 나면 실험은 멈추고 결과에 따라 행동
유연하지 않음
데이터 과학, 비즈니스 전반에는 통계적 유의성보다는 제반 비용과 결과를 최적화하는데 더 관심이 있음
표본크기에 대한 고려는 가설검정이 실제로 차이를 밝혀낼 수 있을까? 라는 질문과 연결됨
검정력이란 특정 표본 조건에서 특정한 효과크기를 알아낼 수 있는 확률을 의미