https://youtu.be/T4jtifT8sJw 를 보고 정리한 내용입니다.
사 먹는 사람(고객) vs. 파는 사람(분석가)
- 우리는 식당을 고를때 청결과 맛을 의심한다. 이 곳이 위생적으로 괜찮은지, 맛은 어떠한지 그리고 그 의심이 해소될 경우 우리는 신뢰하고 식당을 선택한다.
- 같은 맥락에서 데이터 또한 의심을 해야한다.
dubito, ergo cogito, ergo sum
의심한다, 그러므로 생각한다, 그러므로 존재한다. <데카르토>
- 의심의 범위는
"의심할 수 있는 모든 것"
- 의심자체는 부정적인 어감이 있지만, 의심이 있기 때문에 우리는 질 좋은 것을 얻을 수 있다. (e.g. 우리가 우유를 볼때 유통기한을 보는 이유)
- 백종원이 골목식당에서 하는 의심하는 자세. 이것이 우리가 가져야할 자세다.
- 재료 : 원산지 어디지, 상한거 없나.
- 조리법 : 재료는 어떻게 손질해야지, 맵게 또는 안맵게
- 손님 : 어떤 것을 좋아하실까, 알러지는 없으실까.
- 이를 데이터로 치환하면 다음과 같다.
- 나 : 왜 이 데이터를 뒤지고 있지? 이게 최선인가, 고객이 원하는 게 뭐지, 고객이 결과로 무엇을 하길 원하지
- 데이터 : 레퍼런스는 어디지, 빠진 컬럼 또는 로우가 있는가
- 분석법 : 전처리 어떻게 해야하지, 정규화해야하나, 언더피팅 또는 오버피팅
- 고객 : 분석이 궁금한가, 대안을 요구하시나, 통계를 모르니 어려운 말을 빼야할까?
1. 데이터 의심하기
1.레퍼런스 나쁜예
- 대전시에서 가장 높은 건물.
- 위키백과, 해외사이트, 국토교통부 데이터소스마다 다 다를 경우. 무엇을 신뢰할 것인가?
- row, column : 건전성 확인
- 체크리스트 : 있나? 몇개나 있나, 비율은 어디에 있나?
- 결측치 : 데이터가 없음.
- 왜 없을까, 단순 누락일까?
- 중복데이터 : 같은 데이터가 여러개.
- key Feature를 중심으로 논리적으로 판단해야함. (데이터가 여러개 있지만 실제론 중복이 아닌 케이스들)
- 이상치 : 정상치를 벗어난 데이터
- 통계분석을 통해 이상치 후보군을 추리고, 도메인 접근을 통해 진짜 이상치 판별.
- 대학중퇴자의 소득수준이 높은 이유 : 빌게이츠, 스티브잡스, 마크저커버그..
-
너무 믿지 말아야 할 데이터
- 영화 장르 데이터
- 주관적인 판단에 의한 데이터 : 일관성을 상실할 소지가 큼.
- 큰 수의 법칙 : 많이 모으면 전반적인 경향은 비슷하겠지... 일단은 안고가야하지만 어쩔 수 없다는 것을 인지해야함.
- e.g 해리포터 시리즈.
- 각 편마다 가족&판타지, 액션, 드라마, 미스터리 등 매 편마다 장르가 다 달라진다.
-
내게 필요한 그 데이터인지
- 두부예시.
- 부침용,찌개용 : 같은 두부인거 같지만 용도가 다른 두부.
- 데이터파악
2. 분석 방법 의심하기.
3. 고객에게 잘 전달하기.
-
소프트웨어 개발 프로젝트
- 고객마다 니즈가 모두 다르다! 사실은 이게 의사소통하는 과정에서 노이즈가 껴서 그렇다. 그래서 실제로 고객이 원하는 것과 결과물이 다른 경우가 잦음.
-
실제 경험담
- Clouds are in the "[]" 빈칸에 들어올 말
- sky가 기대했던 답이지만, 백엔드 개발자들은 server.
-
같은 결과도 상대방에 따라 다르게.
- 단순 논의 : 나와 같은 전문가.
- 사내 업무보고 : 세부사항 잘 모름.
- 대중매체 : 문제부터 잘 모름.
-
결과를 보고하는 데이터 분석가의 주의사항
- 업무의 시간 순이 아닌 상대방의 논리에 따라 보고.
- 결론 없이 사실만 나열하지 않기
- 경영 용어가 아닌 통계 용어를 남발하지 않가. (상관관계, p-value, DBSCAN 클러스터...)
- 좋은 예e.g.
- 가장 알고 싶는 결론 : 개편 이후 매출이 N% 상승.
- 결론이 발생한 원인 해석 : 00고객층의 재방문률이 증가에 기인한 것으로 판단.
- 자세한 설명 추가 : 00고객층 중에서도 XX연령대의 유입이 늘었음.
- 나름의 제안. 거절당할 수 있음. : 이들을 대상으로 마케팅 이벤트 제안.
-
진짜 원하는 것 찾아내기
"자신들이 원하는게 뭔지도 정확히 모른다." - 스티브 잡스
- 관리자
- 요구사항 : "우리 회사 고객데이터를 분석해주세요"
- 숨겨진 요구사항 : 충성고객에게 집중해야하나, 신사업을 발굴해야하나..?
- 분석가
- 성별, 연령대별 통계치 뽑기
- 매출액 기준 고객 등급 분류
- 작년까지 고개 vs. 올해 신규고객 수 비교..
- 단순 지표만 공유. 액션할 수 있는 것을 제시하지 않음.
- 의사소통 책임소재.
- 명확하게 설명하지 않은 관리자
- 2. 목적을 물어보지 않은 분석가
- 비중은 다를지 모르겠지만 결과적으로 쌍방과실.
-
데이터 vs. 도메인
- "영문과는 영어가 모국어처럼 입에 붙어야 비로소 국문과랑 같은 출발선에 서는 것"
- 초벌 데이터분석으로 알아내는 것 = 도메인에서 모두 알고 있는 것
- 데이터를 분석해서 "이걸 알아냈어요"하고
관리자에게
가져간다 (X)
- 데이터를 분석해서 "이건 이런 것 같네요"하고
도메인 실무자에게
공유한다 (O)
+흥미를 보이는 지점, 애매하게 파악하고 있는 부분 캐치. 심층분석(인과관계, 정량화, 최적화, 예측 등)을 해서 관리자에게 가져간다.
- 피드백을 주고 받으면서 주제를 좁혀가며 새로운 것을 알아낸다.
- 애자일 프로세스
- 문제 정의&해결 사이클이 빨라야 함.
4. 끊임없이 나를 의심하기.
-
데이터로 하지 말아야할 행위들..
- 생명에 대한 예의
- 코로나19 사망자수를 bar_chart_race로 표현.
- 실업률을 리본박스(선물)로 표현한 것.
- 데이터밖의 세계
-
맺음말. 식사를 마친 손님
- 요리사가 얼마나 뛰어냐나는 중요한것이 아니다. 손님에게서
"맛있게 잘 먹었습니다."
이 소리가 나오면 됨.
- 데이터분석가에게 중요한 것은
데이터를 분석하는게 중요한게 아니다. 문제를 해결하는게 중요하다.