데이터 문해력

김민식·2022년 3월 30일
0

책을 읽고 기존에 내가 진행했던 데이터 분석 프로젝트들을 생각해보았다.

대부분의 과정들은 이렇게 진행하지 않았던가 싶다.

  1. 쓸만한 데이터를 찾는다. (흔치 않으며, 무언가 해볼 수 있을 것 같으며, 눈에 띌 것 같은)
  2. 데이터에서 패턴(특징)을 파악한다.
  3. 해당 패턴을 바탕으로 가설을 세운다.
  4. 가설에 대한 "결과"를 낸다.

이러한 과정이 제대로 데이터 분석을 진행했다고 말할 수 있을까? 책의 저자는 위와 같은 데이터 분석 프로세스는 좋은 데이터 분석이 될 수 없다고 한다.

위의 과정은 데이터 분석을 통한 결론을 이끌어 내는 것이 아니라. 그저 데이터 분석 결과를 만들어 낼 뿐이게 된다. 이 과정은 특정한 문제를 해결 하기 위하여 데이터 분석을 진행하는 것이 아니라, 데이터를 분석하는 것이 목적이 되어 버린다. 즉 데이터가 수단이 아닌 목적이 되어 버리는 일이 발생한다.

이를 위해서 우리는 데이터 문해력 을 기를 필요가 있다. 책의 저자는 데이터 문해력이란 데이터를 수단으로 합리적으로 논할 수 있는 능력이라고 정의한다. 인간이 가질 수 있는 강점인 논리적 사고를 기반으로 정답에 대해 고민하고 이를 해결해 나아가는 과정이 중요하다고 한다. 또한 이 과정속에서 단순히 '정답을 찾으러 가는 작업자'로 전락하지 않도록 주의하라고 한다.

데이터에는 답이 없을 수도 있다. 모든 데이터에 정답이 있다고 생각해서는 안되며, 정답이 1개만 있다고 생각해서도 안된다. 항상 데이터를 중심으로 생각하지 않고, 데이터에 의존하지 않는 사고방식과 목적 중심의 사고가 중심이 되어야 한다.

데이터 분석의 절차는 "데이터" -> "가설" 이 아닌 "가설" -> "데이터" 의 과정으로 흘러가야 한다. 데이터 분석은 자신이 수립한 가설을 객관적, 논리적으로 검증하기 위한 것이다. 이 과정이 반대가 될 경우에는 "결론과 관련 없는 결과", "필요에 따라 가설 재정립" 등 여러 문제가 발생할 수 있다.

모델, 통계적인 지식이 뛰어나다고 뛰어난 분석을 잘할 수 있는 것은 아니다. 문제를 해결하기 위해서 갇힌 사고가 아닌, 열린 사고로 접근을 할 수 있어야 한다. 문제를 넓게 바라볼 수 있어야 한다. 끊임없이 가설을 세워보고 증명해 나아갈 수 있어야 한다. 데이터 분석에 있어서 "정답"이라는 것이 명확하게 존재하지 않는다. 그저, 내 스스로 정답을 만들어내고 이를 논할 수 있는 역량을 계속 키우는 것이 데이터 분석의 실력을 늘릴 수 있는 방법이 될 것이다.


책의 목차만 확인해도 많은 깨달음을 얻을 수 있다.

  1. 앞으로 필요한 건 데이터 문해력 : 분석보다 활용
    1.1 기계가 할 일과 사람이 할 일
    1.2 통계를 배워도 왜 활용하지 못하나?
    1.3 데이터를 먼저 보지 마라 - 데이터 안에 답은 없다
  2. 올바른 데이터로 올바른 문제를 풀고 있는가?
    2.1 데이터 활용에 실패하는 두 가지 이유
    2.2 주요 원인 1 : 풀고자 하는 문제가 명확하지 않다
    2.3 주요 원인 2 : 정의한 문제와 사용하는 데이터가 일치하지 않는다
    2.4 비즈니스 현장 사례 분석
  3. '이것이 문제다' 데이터로 말하는 방법
    3.1 결과와 평가는 다르다
    3.2 비교할 때는 관점이 중요하다
    3.3 비교의 기술
    3.4 비교 사례 분석
  4. 결과가 나왔다고 끝난 것은 아니다
    4.1 최종 목표는 '행동과 판단'
    4.2 데이터에서 원인을 찾는 사고방식과 방법
  5. 기법에 집착하지 마라
    5.1 자꾸만 늘어가는 '방법맨'이란
    5.3 '왜(원인)' 그런지 끈질기게 생각하라
  6. '결론은 이것이다' 정보를 요약하라
    6.1 결과와 견론은 다르다
    6.3 결론을 낼 때 주의해야 할 점
  7. '데이터로 문제를 해결할 수 있다'는 착각
    7.1 데이터 안에는 답이 없다고 생각하라
    7.2 시야를 넓히면 분석의 폭도 넓어진다

(1) 분석 전에 문제 및 목적을 정의하고 가설을 구축 -> (2) 분석을 위한 기술과 지식 -> (3) 분석 결과에 대한 해석 및 스토리 구축.
많은 사람들이 (2)번 과정에 집착을 한다. 하지만 (2)번은 (1)번의 과정을 거쳐야만 효력이 생길 수 있다. (2)만을 활용하여 만든 결과물은 어디까지나 계산과 분석의 '결과'에 지나지 않는다. 이는 다른 사람에게 전달했을 때 이해를 받고 동의를 얻기 어렵다. (p20~p21)

단순히 기술 공부를 하는 것이 아니라 '내가 무엇을 알고 싶은가?', '이를 통해 무엇을 하고 싶은가?', '이를 위해 어떠한 데이터(지표)가 필요한가" 끊임없이 고민해야 한다.

'데이터'를 보고 문제를 파악하는 과정이 아니라, '문제'를 해결하기 위해 내가 필요한 데이터가 무엇인가? 하는 접근법이 좋다. 이와 마찬가지로 '데이터'에서 무엇을 알 수 있을지 생각하고 데이터를 가공하는 방식으로 진행되어야 한다.

'목적과 문제' -> '목적과 문제에 따라 데이터 수집 및 방법론 구축' -> '목적과 문제에 대한 결론'
더욱 자세한 과정으로는
A : (겉으로 드러난 현상)
B (목적/문제정의) : 목적 및 문제를 정의

  • 나는 무엇을 알고 싶은가?
  • 나는 무엇을 해결하고자 하는가?
    무엇이 문제이며 구체적으로는 어디 사는 누가 어떤 식으로 곤란에 처해 '문제'가 발생한 것인지 명확히 해야한다.

C (목적/문제정의) : 지표를 결정

  • 정의한 목적과 지표가 불일치 하지는 않는가?
  • 단어 정의가 명확하고 구체적인가? 짐작이나 추측이 아니라, 논리적인 설명을 통해 이용할 지표를 결정해야 한다. 또한 지표를 무조건 하나만 정해야 하는 것은 아니다. 학생식당을 평가할 때 '학생식당의 질' 이라는 지표를 선택했다고 가정하자. 이 경우에 '질'이란 '맛', '가격', '입지 조건', '청결함' 등 여러 해석이 존재할 수 있다.

D (현상파악/평가) : 현재 상태를 파악

  • 성과 및 사실, 결과를 확인할 것

E (현상파악/평가) : 평가

  • 그 결과에 대해 평가를 진행할 것
  • 결론을 정해놓고 데이터로 평가하려다 보면, 그 결론과 다른 결과가 나올 경우 결론 자체를 바꿔야 할 수도 있다. 데이터를 결론에 끼워 맞추는 것은 주의가 필요하다.
  • '우선순위'를 정하려면 선택지를 어떤 척도와 기준으로 '평가'할지가 관건이다. 우선순위를 정하고 중요한 문제를 해결하기 위해 '본래 필요하면서 가치 있는 정보'를 얻고자 한다면 '평가'를 진행하라.
  • 사실 및 결과 표시를 하는 것은 평가가 아니다. '사실과 결과의 데이터를 그래프나 표, 지표 등으로 표시하는 것'과 '내용을 평가해서 구체적인 행동과 판단으로 연결하는 것' 이 둘을 구분한 후, 후자에 필요한 평가를 준비하는 것이 바로 데이터 활용의 중요한 단계이다.
  • 평가를 객관적으로 만드는 것은 '다른 것과의 비교'이다.
  • 결과가 아니라 결론을 도출해야 한다. 'x와 y의 차이가 존재한다'가 아닌, 'x와 y의 차이가 존재한다는 것은, z라는 의미이다.'
  • 비교를 통해 '차이'를 찾을 수 있는가?

F (요인) : 요인을 분석
G (방법) : 해결 방안을 모색

  • 단순히 "매출이 떨어졌다." 이것으로 분석이 끝나는 것이 아니다. 이를 해결하기 위한 방안과 행동을 제안해야 한다. "분석 결과에 이르기 위한 근거와 원인을 제시할 수 있도록 해야한다." -> "원인과 결과의 연결성"
  • 상관분석을 진행한다고 했을 때, 단순히 상관관계만 보는 것만 하는 것이 아니다. 상관관계가 없더라도, 그래프내에서 그룹을 만들어서 그룹 간 특징을 알 수 있을 수 있다. 그리고 또한 상관관계가 인과관계를 나타내는 것이 아니다. 양자 간 어떤 관계가 있는지, 어느 쪽이 원인인지는 분석자의 '해석'에 따라 달려있다.
  • 끊임없이 "왜" 라는 질문을 던져라. 그리고 원인에 대한 해결방안을 강구하라. 단순히 매출 감소에 대한 해결책으로 "가격 할인을 해라", "이벤트를 진행해라" 이런 것은 매출 증가를 위한 단순한 방법 나열밖에 되지 않는다. 어째서 매출이 감소했는지 원인을 명확히 이해하고 수립하는 대책을 만들 수 있도록 생각하는 과정은 방법론과 많이 다르다.
  • 결과와 결론은 다르다. 계산과 분석을 해서 나온 결과물은 어디까지나 '결과'이며, 그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것이 '결론'이다. 단순히 결과를 보고하는 것이 아니라, 문제에 대한 명확한 해결책인 결론을 도출해야 한다. 그리고 이러한 결론은 결과로부터 나오게 된다.
  • 결론을 내릴 때 데이터로 설명이 가능한지, 선입견이 없는지 등 많은 주의를 기울여야 한다. 또한 정답이 여러 개가 나올 수 있다는 것을 생각해야 한다.

데이터 활용의 예시
B2B 기업들은 '고객 만족도 향상' 을 목표로 정하고는 한다. 그런데 '고객 만족도 향상' 은 최종 목적이 되기가 어렵고, '실현 수단'이 되는 것이 좋다. 이에 대한 최종 목적은 '수주 금액 증가'가 될 수 있을 것이다. 이를 위하여 '고객 만족도 향상' 을 수단으로 잡고, 이에 대한 결과를 확인하여야 한다. 고객 만족도가 개선이 되었을 때 매출이나 고객 방문 등에 어떤 영향이 있을지 조사해서 고객 만족도 향상에 대한 목적을 명확히 하는 것이 '데이터 활용'의 첫 시작이 될 수 있다.


항상 이러한 생각을 갖고자 노력해도 놓치는 부분이 생기기 마련이다. 특히나 일을 한지 얼마 되지 않았기 때문에, 일에서 직접적인 연관성(공감?)을 느껴보지는 못해서 머릿속에서 조금 더 빨리 사라지지 않을까?
일을 하면서 다양한 프로젝트를 진행하게 될 것이다. 모든 프로젝트마다 다시 이 책을 확인하며 체크해볼 수는 없겠지만, 한 달에 한 번은 확인하며 프로젝트를 피드백하고 성장의 시간을 다짐한다면 좋겠다.

profile
Welcome

0개의 댓글