[아티클] 데이터 리터러시 & 잘못된 데이터 해석

전민정·2025년 4월 24일

데이터 리터러시(Data Literacy)를 올리는 방법
https://yozm.wishket.com/magazine/detail/1632/

그 데이터는 잘못 해석되었습니다
https://yozm.wishket.com/magazine/detail/1816/

[주제]

데이터 리터러시(Data Literacy)를 올리는 방법

[아티클 요약]

데이러 리터러시란?

데이터 리터러시는 '데이터를 활용해 문제를 해결할 수 있는 능력'이다.

데이터/실험 기반 사고방식

실제 진행하는 업무들을 데이터 기반 사고방식으로 실행하도록 유도하는 것이 좋다. 이런 방식이 자연스러워지도록 실험 프로세스를 도입하는 것이다. 모든 조직의 실험 횟수를 높여 성과를 달성할 가능성을 높이고, 데이터 중심으로 문제를 더 잘 해결할 수 있다.

분석 흐름대로 데이터를 탐색할 수 있는 환경

데이터맵

문제를 잘 정의하기 위해 가장 중요한 지표에 집중할 수 있도록 전사에서 다르는 중요한 인풋 지표와 아웃풋 지표 간의 관계를 표현한 관계도를 제작.공유한다.
중요한 지표에 집중하기 위해 인풋 지표 설정에 중요한 원칙을 설정한다.

  1. 측정 가능 2. 직접적으로 control 가능해야 한다.

이 원칙에 따라 더 중요한 지표에 집중해서 문제를 해결할 수 있고, 관계도 또한 각 지표 간의 관계를 쉽게 이해하 수 있게 만들어 해결해야 하는 문제가 어떤 지표와 연관되어있는지 빠르게 파악할 수 있다.

대시보드

지표 관계를 잘 이해한다면 흐름에 따라 지표의 현재 수준을 확인할 수 있는 환경이 필요하다. 대시보드에서 최상위 문제를 발견하면 각 지표와 관련된 하위 지표들이 구성된 분석 대시보드에서 원인을 짐작할 수 있다.

이 과정을 도와주는 분석가

분석가의 역할은 단순히 데이터를 추출하고, 분석 내용을 리포팅하는 것만 그쳐서는 안 된다. 문제를 정의하고 원인을 분석한 뒤 액션 아이템까지 도출해 리포트를 제공받은 협업팀이 실행하도록 만들어야 한다.

데이터 플랫폼

데이터를 빠르게 준비해 사용할 수 있는 구조가 필요하다. 데이터 웨어하우스와 카탈로그는 분석가들이 실질적으로 분석 업무를 빠르게 수행할 수 있다.

[인사이트]

이 글을 읽으며, 데이터/실험 기반 사고방식의 문제 정의, 데이터맵의 중요성이 명확하게 드러났다는 느낌을 받았다.협업팀에서 확인하고자 했던 다양한 포인트들이 하나로 정리되어 있다는 점에서 인상 깊었다. 그들이 요청한 데이터는 데이터팀에서 문제를 해결하기 위한 '문제 정의' 과정에 데이터를 파악할 때 확인할 수 있는 것들이 내포되어 있다. 그래서 데이터팀에서 협업팀의 사고를 데이터 기반 사고방식으로 실행하게 만들었고, 결과적으로 데이터팀이 분석을 보다 효율적으로 수행하는 데 큰 도움이 되었던 것으로 느껴졌다.

[주제]

그 데이터는 잘못 해석되었습니다

[아티클 요약]

데이터를 잘못 해석하는 상황별 유형

1. 생존자 편향의 오류

오랫동안 서비스를 이용한 고객의 이탈이 많아진다면, 현재 서비스가 잘못된 방향으로 가고 있다는 강한 신호이다. 이것을 지표화한다면 ‘매주 이탈 고객 중 서비스를 장기간 이용한 고객의 비율’로 설정할 수 있다. 이 지표가 상승했다면 최근 고객들의 불만도가 높아졌다고 해석할 수 있다.
전체 이용자를 기준으로 한 것이 아닌 이탈자를 대상한다면, 잘못된 지표 설정과 잘못된 해석이 발생한다. 생존자 편향의 오류를 막기 위해서는 전체 대상을 기준으로 잡는 것이 중요하다.

2. 심슨의 역설

전체 지표와 그룹을 나눈 지표의 방향성이 다르게 나타나는 상황을 심슨의 역설(Simpson's paradox)이라고 한다.
데이터 분석에 많이 사용하는 퍼널 전환율, 결제 전환율, 클릭률 등 여러 전환율 지표에서 심슨의 역설이 발생할 수 있다. 심슨의 역설을 방지하기 위해서는 전체 집단의 지표뿐만 아니라, 집단을 나누어 지표를 확인하는 과정이 필요하고, 특성이 다를 수 있다고 생각하는 성별, 연령대, 기기 타입, 신규/기존 여부 등의 기준들을 미리 정하여, 그 기준으로 지표를 살펴보는 것이 효과적이다.

3. 상관관계를 통한 성급한 일반화

데이터를 자주 확인하고 여러 지표를 비교할수록, 지표 간의 관계를 파악하여 해석하려는 유혹에 쉽게 빠지게 된다. 사람은 연관성을 찾고 연결하는 것에 강점이 있어, 비슷해 보이는 패턴이 있다면 쉽게 일반화하는 경향이 있기 때문이다. 상관관계를 통한 성급한 일반화의 함정에 빠지지 않기 위해, 사용자의 행동과 심리를 인지적으로 구조화하고 두 지표에 동시에 영향을 줄 공통 원인이 있는지 살펴봐야 한다. 또한 새로운 구조로 지표 간의 관계를 파악하는 과정이 꼭 필요하다.

4. 목적에 맞지 않는 지표 선택

유저의 행동을 유도하는 버튼을 CTA(Call To Action)라고 한다. 만약 서비스의 CTA 버튼을 개선하는 프로젝트를 진행한다면, 지표를 통해 어떻게 개선되었는지 확인해야 한다. 정확히 어떤 관점에서 CTA 버튼을 개선할지 목적을 명확히 해야 한다. 목적에 맞는 지표를 선택해야 제대로 된 의사결정을 할 수 있기 때문이다.

[인사이트]

상관관계를 시각화할 때, 나도 모르게 그 관계를 근거로 단정을 짓는 경우가 많았다. 그럴 때마다 “상관관계는 상관관계로만 두어야 한다”라는 교수님의 말씀이 떠올랐고, 그 이유에 대해 늘 궁금증이 있었다. 그런데 이번 글을 통해 그 말의 의미를 조금은 명확하게 이해하게 된 것 같다.

팀원 전체의 인사이트

[공통 인사이트]

  • 데이터 분석을 할 때, 커뮤니케이션 스킬이 중요함을 느꼈다.

[의미 있었던 의견]

생각해보지 못했으나 팀원의 의견으로 인해 알게된 의견 혹은 다른 생각에 대한 부분을 요약해주세요.

1번 아티클을 읽던 중, ‘모든 구성원이 데이터 역량을 갖추고 있다면 데이터 분석가는 어떤 면에서 차별화되는가?’라는 의문을 가졌다. 결국 데이터 분석가는 단순한 분석에서 나아가서 가치 창출을 할 수 있어야 한다. 이른바 ‘하드 스킬’이라고 할 수 있는 통계적 기술과 수리능력뿐 아니라, 소통능력과 창의력, 문제해결능력 등의 ‘소프트 스킬’을 두루 갖춰야 할 필요성을 느꼈다. 실제로 요즘 현직에서는 소프트 스킬을 많이 요구하고 있다고 한다. 이번 아티클도 공통적으로 소프트 스킬을 강조하고 있다는 느낌이 든다.

0개의 댓글