[데이터분석, 의심에서 전달까지] (에너지기술연구원 이제현) - 내용 요약

2innnnn0·2021년 10월 17일
1
post-thumbnail

https://youtu.be/T4jtifT8sJw 를 보고 정리한 내용입니다.

사 먹는 사람(고객) vs. 파는 사람(분석가)

  • 우리는 식당을 고를때 청결과 맛을 의심한다. 이 곳이 위생적으로 괜찮은지, 맛은 어떠한지 그리고 그 의심이 해소될 경우 우리는 신뢰하고 식당을 선택한다.
  • 같은 맥락에서 데이터 또한 의심을 해야한다.
  • dubito, ergo cogito, ergo sum 의심한다, 그러므로 생각한다, 그러므로 존재한다. <데카르토>
  • 의심의 범위는 "의심할 수 있는 모든 것"
    • 의심자체는 부정적인 어감이 있지만, 의심이 있기 때문에 우리는 질 좋은 것을 얻을 수 있다. (e.g. 우리가 우유를 볼때 유통기한을 보는 이유)
  • 백종원이 골목식당에서 하는 의심하는 자세. 이것이 우리가 가져야할 자세다.
    • 재료 : 원산지 어디지, 상한거 없나.
    • 조리법 : 재료는 어떻게 손질해야지, 맵게 또는 안맵게
    • 손님 : 어떤 것을 좋아하실까, 알러지는 없으실까.
  • 이를 데이터로 치환하면 다음과 같다.
    • 나 : 왜 이 데이터를 뒤지고 있지? 이게 최선인가, 고객이 원하는 게 뭐지, 고객이 결과로 무엇을 하길 원하지
    • 데이터 : 레퍼런스는 어디지, 빠진 컬럼 또는 로우가 있는가
    • 분석법 : 전처리 어떻게 해야하지, 정규화해야하나, 언더피팅 또는 오버피팅
    • 고객 : 분석이 궁금한가, 대안을 요구하시나, 통계를 모르니 어려운 말을 빼야할까?

1. 데이터 의심하기

1.레퍼런스 나쁜예

  • 대전시에서 가장 높은 건물.
    - 위키백과, 해외사이트, 국토교통부 데이터소스마다 다 다를 경우. 무엇을 신뢰할 것인가?
  1. row, column : 건전성 확인
  • 체크리스트 : 있나? 몇개나 있나, 비율은 어디에 있나?
  • 결측치 : 데이터가 없음.
    - 왜 없을까, 단순 누락일까?
  • 중복데이터 : 같은 데이터가 여러개.
    - key Feature를 중심으로 논리적으로 판단해야함. (데이터가 여러개 있지만 실제론 중복이 아닌 케이스들)
  • 이상치 : 정상치를 벗어난 데이터
    • 통계분석을 통해 이상치 후보군을 추리고, 도메인 접근을 통해 진짜 이상치 판별.
    • 대학중퇴자의 소득수준이 높은 이유 : 빌게이츠, 스티브잡스, 마크저커버그..
  1. 너무 믿지 말아야 할 데이터

    • 영화 장르 데이터
      • 주관적인 판단에 의한 데이터 : 일관성을 상실할 소지가 큼.
      • 큰 수의 법칙 : 많이 모으면 전반적인 경향은 비슷하겠지... 일단은 안고가야하지만 어쩔 수 없다는 것을 인지해야함.
      • e.g 해리포터 시리즈.
        • 각 편마다 가족&판타지, 액션, 드라마, 미스터리 등 매 편마다 장르가 다 달라진다.
  2. 내게 필요한 그 데이터인지

  • 두부예시.
    • 부침용,찌개용 : 같은 두부인거 같지만 용도가 다른 두부.
  1. 데이터파악
  • 앤스컴 콰르텟 예시.

  • 다른 사례로 데이터공룡datasauRus도 있음.

  • 통계치만 보면 되는게 아닌 꼭 데이터를 눈으로 직접 보고 시각화를 해봐야 함.

  • 그래서 결론. "무조건 그린다."

  • 데이터를 제대로 의심하는 방법

    • EDA : 장님 코끼리 만지기.
      • 여러 관점에서 데이터를 바라봐야 한다.

2. 분석 방법 의심하기.

  • 감자 자르기

    • 무엇을 만드느냐에 따라 감자의 썰기방법이 달라진다.(감자볶음. 감자칩. 구운감자)
  • 데이터분석에 비유하면 다음과 같다.

    • 현황분석 : 현재 우리의 상황을 잘 이해하는 것이 목적. 내용 전달이 목적이기에 글과 그림을 잘 써야함.
    • 대안제시 : 보통 현황분석과 같이함. 문제를 파악한 후 대안의 장점과 단점을 제시. 설득력이 포인트임.
    • 예측모델 : 미래의 값을 궁금하기 때문에 얼마나 믿을 수 있는지가 매우 중요. 검증결과와 예상오차를 제시해 줘야함. 신뢰성이 포인트
  • 망치와 모루 전략(Hammer and Anvil Tatic)

    • 모루가 버티는 동안 망치가 때린다. 모루는 방어하는 것이고, 망치는 공격하는 것.

      • 데이터 관점
    • 모루 : 수학적 엄밀함.

      • "허튼 소리 피하기" = 온갖 의심의 집합체.
        - 교차검증, 카이제곱, t-검정, 정규화, 층화추출 등등 온갖 메트릭을 활용해서 방어해야함. (이것은 내가 틀리지 않았다는 것을 계속해서 각인시켜주기 위한 목적.)
        • 망치 : 나만의 인사이트
          - 아무도 못한 생각을 해내기
  • 인사이트 도출 방법

    1. 데이터 자르기
    • 심슨의 역설.
      • 신경질~연봉 의 상관관계가 높지만
        - 교육수준으로 쪼개서 보면 실은 신경질이 낮을수록 높은 연봉을 받는 것으로 확인.
    1. 독창적 시각화
    • 나이팅게일 시각화.
      • 전쟁에서 위생으로 죽는 사람이 더 많음.
    • 버블차트 (w/한스 로슬링)
      • 세상은 점점 나아지고 있다.(갭마인드)
    • slow down (w/ danny dorling)
      • 가속 성장의 시대는 끝났다.
  • 나만의 인사이트를 도출하는 방법

    • "답안지에 정답이 아닌 답을 적는데, 그게 더 정답일 때가 있다."
    • 책에 나오는 다양한 분석 방법이 많지만, 그것을 내 경험과 다양한 분석 방법 조합을 해보면 어쩌면 기대 이상의 답을 없을 수 있다.
    • 오징어게임
      • 달고나 문제 > 단순히 열심히만 해서 하면 안된다. "바늘에서 혀로"
    • 결론 : "남들보다 더 많은 시간과 정성 쏟기 + 스스로 생각하기"

3. 고객에게 잘 전달하기.

  • 소프트웨어 개발 프로젝트

    • 고객마다 니즈가 모두 다르다! 사실은 이게 의사소통하는 과정에서 노이즈가 껴서 그렇다. 그래서 실제로 고객이 원하는 것과 결과물이 다른 경우가 잦음.
  • 실제 경험담

    • Clouds are in the "[]" 빈칸에 들어올 말
      • sky가 기대했던 답이지만, 백엔드 개발자들은 server.
  • 같은 결과도 상대방에 따라 다르게.

    • 단순 논의 : 나와 같은 전문가.
    • 사내 업무보고 : 세부사항 잘 모름.
    • 대중매체 : 문제부터 잘 모름.
  • 결과를 보고하는 데이터 분석가의 주의사항

    • 업무의 시간 순이 아닌 상대방의 논리에 따라 보고.
    • 결론 없이 사실만 나열하지 않기
    • 경영 용어가 아닌 통계 용어를 남발하지 않가. (상관관계, p-value, DBSCAN 클러스터...)
    • 좋은 예e.g.
      • 가장 알고 싶는 결론 : 개편 이후 매출이 N% 상승.
        • 결론이 발생한 원인 해석 : 00고객층의 재방문률이 증가에 기인한 것으로 판단.
        • 자세한 설명 추가 : 00고객층 중에서도 XX연령대의 유입이 늘었음.
        • 나름의 제안. 거절당할 수 있음. : 이들을 대상으로 마케팅 이벤트 제안.
  • 진짜 원하는 것 찾아내기

    • "자신들이 원하는게 뭔지도 정확히 모른다." - 스티브 잡스
    • 관리자
      • 요구사항 : "우리 회사 고객데이터를 분석해주세요"
        • 숨겨진 요구사항 : 충성고객에게 집중해야하나, 신사업을 발굴해야하나..?
    • 분석가
      • 성별, 연령대별 통계치 뽑기
        • 매출액 기준 고객 등급 분류
        • 작년까지 고개 vs. 올해 신규고객 수 비교..
        • 단순 지표만 공유. 액션할 수 있는 것을 제시하지 않음.
          - 의사소통 책임소재.
        1. 명확하게 설명하지 않은 관리자
          - 2. 목적을 물어보지 않은 분석가
        • 비중은 다를지 모르겠지만 결과적으로 쌍방과실.
  • 데이터 vs. 도메인

    • "영문과는 영어가 모국어처럼 입에 붙어야 비로소 국문과랑 같은 출발선에 서는 것"
    • 초벌 데이터분석으로 알아내는 것 = 도메인에서 모두 알고 있는 것
    • 데이터를 분석해서 "이걸 알아냈어요"하고 관리자에게 가져간다 (X)
    • 데이터를 분석해서 "이건 이런 것 같네요"하고 도메인 실무자에게 공유한다 (O)
      +흥미를 보이는 지점, 애매하게 파악하고 있는 부분 캐치. 심층분석(인과관계, 정량화, 최적화, 예측 등)을 해서 관리자에게 가져간다.
    • 피드백을 주고 받으면서 주제를 좁혀가며 새로운 것을 알아낸다.
  • 애자일 프로세스
  • 문제 정의&해결 사이클이 빨라야 함.

4. 끊임없이 나를 의심하기.

  • 데이터로 하지 말아야할 행위들..

    1. 생명에 대한 예의
      • 코로나19 사망자수를 bar_chart_race로 표현.
      • 실업률을 리본박스(선물)로 표현한 것.
    2. 데이터밖의 세계
      • 현장의 중요성. 데이터는 중립적.
  • 맺음말. 식사를 마친 손님

    • 요리사가 얼마나 뛰어냐나는 중요한것이 아니다. 손님에게서 "맛있게 잘 먹었습니다." 이 소리가 나오면 됨.
    • 데이터분석가에게 중요한 것은 데이터를 분석하는게 중요한게 아니다. 문제를 해결하는게 중요하다.
profile
성장하고 싶은 데이터분석가.

0개의 댓글