맨-휘트니 U 테스트(MWU) 사용 중지하기

sir.YOO_HWAN·2024년 1월 13일

Statistics

목록 보기

2/3

요약

Mann-Whitney U 검정(MWU)은 통계학에서 비정규 분포 데이터를 분석하는 데 자주 사용되는 방법입니다. 특히, 온라인 실험에서 평균 수익률(ARPU)과 같은 연속적인 비이진 메트릭스를 분석할 때 유용하다고 여겨집니다. 하지만 이 글에서는 MWU 검정이 실제로 필요하지 않은 상황에서 너무 자주 사용되며, 이로 인해 해로운 결과를 초래할 수 있다고 지적합니다.

MWU 검정은 두 집단 간의 '확률적 차이'를 측정합니다. 이는 두 집단의 데이터를 순위에 따라 정렬한 후, 한 집단이 다른 집단보다 높은 순위의 값을 얼마나 많이 가지는지를 비교하는 것입니다. 그러나 이 방법은 데이터의 실제 차이의 크기를 무시하고 순위만을 고려합니다. 따라서, 데이터의 중요한 정보를 잃어버릴 수 있습니다.

또한, MWU 검정은 중앙값의 차이를 검사하는 경우에만 정확하게 해석될 수 있습니다. 만약 두 집단의 데이터가 비슷한 형태를 가지면, 이 검정은 두 집단의 중앙값 차이를 검사하는 것으로 볼 수 있습니다. 하지만, 이는 평균의 차이를 측정하는 것이 아니므로, 비즈니스 수익에 직접적으로 영향을 미치는 평균 수익률을 분석하는 데에는 적합하지 않습니다.

이 글은 MWU 검정이 실제로 어떻게 잘못 사용될 수 있는지 여러 예를 들어 설명합니다. 예를 들어, 진짜 차이를 감지하지 못하는 경우, 참된 효과를 발견하는 데 실패하는 비율이 높아지는 경우, 실제로 존재하지 않는 개선을 발견하는 경우 등이 있습니다.

결론적으로, MWU 검정은 A/B 테스트에서 일반적으로 관심을 가지는 비즈니스 가설에 부적합하다고 할 수 있습니다. 잘못 사용되었을 때 잘못된 추론, 나쁜 추정, 낮은 통계적 힘과 같은 해로운 결과를 초래할 수 있습니다. 따라서, MWU 검정은 중앙값의 차이나 확률적 차이가 특별히 관심 있는 경우에만 적합할 수 있으며, 대부분의 A/B 테스트에서는 적절하지 않다는 것이 이 글의 주장입니다.

본문

윌콕슨 순위 합 테스트 및 맨-휘트니-윌콕슨 테스트라고도 하는 맨 휘트니 U 테스트(MWU)는 정규 분포가 아닌 데이터를 분석하는 데 가장 적합한 테스트로 계속 홍보되고 있습니다. 온라인 실험에서 이 테스트는 사용자당 평균 매출(ARPU, RPU) 또는 평균 주문 가치(AOV)와 같이 일반적으로 비 정규(왜곡) 분포를 가진 비이항 메트릭 분석에 가장 적합한 것으로 선전되기도 합니다.

단순 t 검정(예: 웰치 t 검정)이 비이항 A/B 테스트 데이터를 분석하는 데 완벽하게 적합하다는 사례는 이미 "비이항 메트릭의 통계적 유의성 "과 "온라인 A/B 테스트의 통계적 방법"의 연속형 메트릭 장에서 설명한 바있습니다. 위에서 기본 데이터 분포가 왜곡되어 있더라도 평균의 차이에 관심이 있는 경우 맨-휘트니 U 테스트가 전혀 필요하지 않은 이유에 대해 설명했습니다.

이 글에서는 맨-휘트니 U를 사용할 필요성이 없음에도 불구하고 주요 지표의 평균 차이를 분석하기 위해 A/B 테스트에 맨-휘트니 U를 사용할 때 어떤 일이 발생하는지 살펴봅니다. 이 글은 현재 온라인 A/B 테스트에서 맨-위트니 U를 사용하는 대부분의 사례가 불필요하고 부당할 뿐만 아니라 해롭다는 것을 보여주는 것을 목표로 합니다.

사용자당 평균 수익에 대한 A/B 테스트

온라인 실험에서 관심 있는 연속적인 지표를 접하는 일반적인 사례는 제안된 변경 사항이 사용자당 평균 수익(ARPU)을 개선하는지 테스트할 때입니다. 관련 통계 테스트는 평균 차이(절대 또는 상대) 테스트입니다. 테스트한 변경 사항이 사용자 수에 영향을 미치지 않는다고 가정할 때 산술 평균의 개선은 곧바로 비즈니스 수익의 개선으로 이어지기 때문에 이 테스트의 유용성은 즉각적으로 드러납니다. 예를 들어, 사용자당 평균 수익이 1달러 개선되었다는 것은 한 달에 100만 명의 사용자가 있는 온라인 비즈니스의 경우 월 수익이 100만 달러 개선되었다는 의미입니다.

대조군의 평균이 μ0, 시험군의 평균이 μ1로 표시된 경우 관련 통계 검정은 μ1 - μ0에 대한 검정이 됩니다. 평균(μ1 - μ0) /μ1 또는 백분율 변화( 백분율 상승 )의 상대적 차이를 테스트하고자 할 때 발생하는 복잡성은 단순화를 위해 제쳐두겠습니다.

평균 주문 가치(AOV), 사용자당 평균 세션 수, 사용자당 평균 검색 횟수, 사용자당 평균 참여 시간 등과 같은 다른 연속 지표에도 동일한 논리가 적용됩니다. 간결성을 위해 글 전체에서 ARPU를 사용하지만 결론은 모든 연속 지표에 일반화됩니다.

만-휘트니 U 테스트의 실제 테스트 대상

문제를 파악했으면 이제 MWU 테스트가 문제를 해결하는 데 얼마나 적합한지 확인해야 합니다. 맨-휘트니 U 테스트는 확률적 차이를 테스트하기 위해 개발되었습니다. 저자의 말에 따르면 [1]:

"그러나 고려한 사례에서 우리는 치료를 받은 그룹의 측정값이 대조군보다 확률적으로 더 크다는 대체 가설에만 관심이 있습니다."

Mann, H. B., Whitney, D. R. (1947) "두 개의 무작위 변수 중 하나가 다른 변수보다 확률적으로 더 큰지 테스트"
그런데 "확률적으로 더 크다"는 것은 무엇을 의미할까요? 엄밀히 말하면, f와 g가 각각 실험군과 대조군 변수의 누적 분포 함수인 경우, -∞와 +∞ 사이의 모든 a에 대해 f(a) > g(a )라면 확률 변수 x가 다른 변수 y보다 확률적으로 더 큽니다. 확률 표기법에서 y가 x보다 확률적으로 더 크려면, 모든 a 값에 대해 Pr(y > a) > Pr(x > a) 부등식이 성립해야 합니다.

수학적으로 U 통계를 계산하기 위해 테스트 그룹과 대조 그룹의 값을 함께 그룹화한 다음 순서를 매기고, U는 순서대로 테스트 그룹의 관측값이 대조 그룹의 관측값을 대체하는 횟수로 계산합니다.

기본적으로 MWU는 테스트 그룹의 순위 값과 대조 그룹의 순위 값을 비교합니다. 대조군에 비해 테스트 그룹에 더 높은 순위의 값이 많을수록 U가 커지고 그에 상응하는 p-값이 작아집니다. 윌콕슨 순위 합계 테스트는 실질적으로 동일합니다.

순위 변환과 그에 따른 순위 비교는 본질적으로 값 간의 차이의 크기에 대한 정보를 잃게 된다는 점에 유의해야 합니다. 즉, 1달러와 2달러의 차이는 1달러와 10달러의 차이와 동일하게 취급될 수 있습니다. 이러한 정보 손실이 초래하는 결과는 "맨-휘트니 U 테스트 오용의 결과" 섹션의 예를 통해 확인할 수 있습니다.

중앙값의 차이를 테스트하는 맨-휘트니 U 테스트

순위 변환된 값의 두 분포가 동일한 모양을 갖도록 설정할 수 있는 경우, MWU 검정은 중앙값 차이 검정으로 해석할 수 있습니다. 대조군 med0의 중앙값과 테스트군 med1의 중앙값을 나타내는 이 특정 시나리오에서 이 테스트는 중앙값 차이 검정으로 해석할 수 있습니다: med1 - med0.

MWU 테스트가 문제에 적합하나요?

위의 모든 내용을 문자 그대로 따르지 않았더라도 테스트 그룹의 ARPU가 대조 그룹보다 큰지 여부를 테스트 할 때 Mann-Whitney U가 적절한 테스트가 아니라는 것은 분명해야합니다. 이러한 근본적인 불일치로 인해 모든 종류의 해로운 영향이 뒤따릅니다.

중앙값 차이 테스트

MWU는 기껏해야 메드1 - 메드0의 테스트인 반면, 측정하고자 하는 것은 μ1 - μ0입니다.

평균에서 중앙값으로 전환하는 것은 문제를 재정의하지 않고는 불가능합니다. 평균의 차이는 비즈니스 수익에 미치는 영향으로 쉽게 해석할 수 있지만, 중앙값의 차이는 같은 방식으로 해석할 수 없습니다. 중앙값은 데이터에서 사용 가능한 전체 정보를 사용하지 않기 때문에 비즈니스 수익이 개선되는 동안 중앙값은 동일하게 유지되거나 더 작아질 수 있습니다. 반대로 수익이 감소하는 동안 중앙값이 커질 수도 있습니다. 이 예는 아래에 나와 있지만, 이 주제에 대한 자세한 내용은 "평균, 중앙값 또는 모드를 사용할 때 "를 참조하세요.

(t-검정의 가정 위반으로 인해) 확실히 비 정규 분포에 사용하도록 제안된 MWU를 고려할 때, 평균과 중앙값이 일치할 것으로 예상해서는 안 되므로 정규 분포 변수의 평균 검정 대신 중앙값 검정을 사용할 수 있다는 극히 약한 주장도 근거가 없습니다.

확률적 차이 테스트

위에서 설명한 것처럼, 분포의 모양이 다른 시나리오에서 만-위트니 U는 확률적 차이인 f(a) > g(a)를 테스트합니다. 이것이 μ1 - μ0의 테스트와 어떻게 관련되는지는 전적으로 분포의 특정 모양에 따라 달라집니다. 아래에서 몇 가지 예를 살펴보겠습니다.

맨-휘트니 U 테스트 오용의 결과
비즈니스 질문에 대한 답을 얻기 위해 데이터를 가져오기 위해 설계된 A/B 테스트에서 MWU를 잘못 사용하면 다양한 방식으로 오해를 불러일으킬 수 있습니다. 아래 예시를 통해 이러한 방법을 살펴보겠습니다.

정품 리프트 감지 실패

분포의 모양이 충분히 달라서 대조군의 중앙값이 시험군의 중앙값보다 큰 경우, Mann-Whitney U는 평균의 상대적으로 큰 실제 차이도 감지할 수 있는 통계적 힘이 거의 없을 수 있습니다.

위의 그래프와 값은 테스트 그룹의 실제 평균이 ~20.46, 대조군의 실제 평균이 ~20.09인 시뮬레이션의 한 결과이며, 이는 1.84%의 실제 차이로 A/B 테스트에서 예상할 수 있는 평균 실제 차이와 거의 비슷합니다. 이 시뮬레이션에서 t-테스트는 약 44%의 통계적 검정력을 보인 반면, MWU는 0.6%, 즉 거의 0에 가까운 검정력을 보였습니다. 예상대로, 원시 데이터에 명백한 왜곡이 있음에도 불구하고 두 가지 모두 진정한 널의 경우 알파를 보수적으로 제어했습니다.

더 낮은 전력으로 진정한 리프트 감지

분포의 모양이 본질적으로 동일하더라도 일반적으로 발생하는 왜곡된 분포에서는 MWU가 여전히 낮은 파워를 보일 수 있습니다. 아래 예시는 테스트 그룹의 실제 평균이 ~19.29, 대조군의 경우 ~18.59, 즉 실제 상대적 차이가 약 3.76%인 시뮬레이션의 단일 실행입니다. 중앙값은 테스트 그룹이 18.53, 대조군이 17.96이었습니다.

10,000회의 시뮬레이션 실행 결과 t-검정의 통계적 검정력은 ~80%인 반면 MWU의 검정력은 ~73.3%에 불과했으며, 유형 II 오류율은 t-검정의 경우 ~20%인 반면 MWU의 경우 26.6%로 나타났습니다. 이 예에서 Mann-Whitney U를 사용하면 t-검정보다 33% 더 높은 위음성률이 발생하며, t-검정의 검정력을 얻으려면 약 20% 더 큰 표본 크기가 필요합니다. 이는 종종 테스트 기간이 약 20% 더 길어진다는 의미로 해석됩니다.

실제로 순차적 테스트를 실행할 때와 같이 다른 이점으로 인해 전력 손실이 정당화되는 시나리오가 있습니다. 그러나 이 경우 실제 효과를 감지하지 못하는 비율이 크게 증가할 가능성과 그에 따른 전력 손실은 어떤 이점으로도 상쇄되지 않습니다.

위는 예시적인 예시이며 실제 전력 손실은 각 개별 사례의 분포 형태에 따라 달라질 수 있으며, 다른 사례에서는 MWU가 t-검정 결과와 더 유사한 전력을 나타낼 수도 있습니다. 이러한 저전력 문제의 발생 여부는 수행한 정확한 테스트에 따라 다르지만, MWU를 부적절하게 사용하면 그 결과가 t-테스트의 결과와 방향적으로 일치하더라도 상당한 비용이 발생할 수 있다는 것을 보여줍니다.

존재하지 않는 개선 사항 찾기

이것은 순전히 가상의 시나리오에 불과하지만, 이론적으로는 치료 그룹과 대조 그룹에서 분포의 왜곡이 반대일 수 있고, 두 그룹의 평균이 같거나 대조 그룹의 평균이 시험 그룹의 평균보다 높을 수도 있습니다. 이러한 경우 MWU는 오차 보장을 유지하므로 t-검정과 같은 적절한 평균 차이 검정보다 훨씬 더 자주 통계적으로 유의미한 개선 신호를 보낼 수 있습니다.

변수에 대해 약간 부정적이지는 않지만 평균의 실제 차이가 거의 0에 가까운 시뮬레이션의 한 예에서 Mann-Whitney U 테스트는 목표인 5%가 아닌 시뮬레이션 실행의 약 28%에서 통계적으로 유의미한 개선을 감지했습니다. 주어진 사용자 수에 대한 ARPU와 총 수익에는 영향을 미치지 않지만, MWU는 설계된 대로 두 분포의 확률적 차이를 감지하기 때문에 목표 비율의 5배가 넘는 오탐을 생성합니다. t-테스트는 목표 알파를 보수적으로 유지했습니다.

맨-휘트니 U 테스트는 A/B 테스트에 사용해야 하나요?

맨-휘트니 U 검정과 이에 상응하는 윌콕슨 순위 합계 검정은 실험자가 일반적으로 관심을 갖는 비즈니스 가설, 즉 평균의 차이를 검정하는 가설에 대한 검정으로는 부적합합니다. 맨-휘트니 U 테스트가 A/B 테스트에서 제기되는 대부분의 질문에 적합하지 않다는 점을 고려할 때, "맨-휘트니 U 테스트 사용을 중단하라"고 말해도 크게 틀린 말은 아닐 것입니다.

테스트가 설계되지 않은 상황에서 테스트를 남용하면 잘못된 추론, 잘못된 추정, 결론이 방향이 맞더라도 낮은 통계적 힘과 같은 일반적인 해로운 결과를 초래할 수 있습니다.

특히, MWU 테스트를 오용 및 남용하면 상황에 따라 다음과 같은 결과를 초래할 수 있습니다:

일부 경우 관심 지표에 대한 실제 효과를 감지하지 못함(통계적 검정력 0).
통계적 힘의 손실로 인해 결정이 옳은 경우에도 실제 효과를 감지하지 못하거나 증거의 강도를 과소평가하는 비율이 높아져 테스트 비용이 더 많이 듭니다.
개선 사항이 없는 곳에서 개선 사항을 발견할 가능성
드물지만 값의 절반이 아래 또는 위에 있는 차이에 관심이 있는 경우, 분포의 동일성을 충분히 정확하게 확인할 수 있는 경우 MWU 테스트는 여전히 허용됩니다. 확률적 차이가 특히 관심이 있는 경우 이 테스트는 여전히 적절한 테스트이지만, 테스트 변수가 대조군보다 확률적으로 더 나은 경우 비즈니스 결과로 해석하기는 어렵습니다.