
출처: 이제현 박사님 블로그
Created at January 22, 2023
Updated on February 3, 2023
필자는 대입 수험생 시절 호랑이 기운이 넘쳐나는 대학교의 논술을 치던 중에 심슨의 역설이라는 개념을 처음 맞이했습니다. 그 당시, 논술를 친 이후 해당 개념이 들어간 통계학 책도 구입해서 보았던 기억이 있습니다. 다만, 직관적으로 이해하기 어려운 개념이라 큰 얼개만 파악하고 넘어 갔었는데 데이터 분석을 공부하면서 Breakdown의 중요성을 인지하게 되면서 심슨의 역설을 재발견하게 되었습니다.
※ 아래 2개의 슬라이드는 출처를 알 수 없어서 표기하지 못했습니다. 혹시 해당 슬라이드들의 출처를 아시는 분은 댓글이나 이메일로 연락주시면 감사하겠습니다!
심슨의 역설은 ‘전체는 부분의 합이다’이라는 환원론적 관점에 어긋나는 예외적 현상입니다. 하지만 환원론에서 중시하는 분해의 중요성을 보여주는 역설적인 명제이기도 합니다.


→ 비율의 차이가 원인
출처: [SOCAR DATA MeetUp] 데이터로 비즈니스 급속 성장 부스터 달기

SOCAR에서 실제로 진행한 데이터 분석 과정을 보면서 심슨의 역설을 확인해 보고자 합니다.
Y축은 최종정상판매확률은 자정 기준(마감)으로 해당 쏘카존에 있는 차량의 최종 판매된 비율을 말합니다. 전체 데이터 트렌드를 보면 특정 시간대에 노는 차량이 70%이 존이 100%로 노는 차량인 비해서 더 최종판매확율이 낮은 이상한 결과를 맞이하게 됩니다. 전체를 소규모존과 중-대규모존으로 분해해보도록 합시다.

차량이 소수인 존은 오전 9시에 판매가 되지 않았더라도 소수이기 때문에 판매가 될 가능성이 높다는 사실을 발견할 수 있습니다. 중-대규모 존은 차량의 수량이 많기 때문에 우리가 일반적으로 생각하는 오전에 판매가 되지 않을 수록 최종 판매비율도 비례하는 결과를 볼 수 있습니다. 심슨의 역설 관점으로 본다면 소규모존의 전체 존에 대한 비율이 중-대규모존 비율에 비해 높음을 추론할 수 있습니다.