데이터 분석 첫걸음

joonfly·2021년 8월 31일
0

데이터 분석에 흥미가 생겨 탈잉에서 데이터 분석, SQL기초 강의를 듣기로 했다. 다른 비슷한 강의들이 많았지만 굳이 탈잉에서 수강하는 이유는, DB에 대한 내용을 따로 다루기 때문에 뭔가 더 근본 있어 보였다.

데이터 분석이 뭘까 ?

일단 뭐 OT수업을 포함한 첫 주제는 데이터가 왜 중요한지, 어떻게 공부해야하는지, 어떤식으로 이해해야하는지에 대한 이야기를 주로 다루었다.

특히, 데이터 분석 업무를 하는 방식에 대한 설명이 굉장히 인상깊었다.

가설을 세우고, 데이터 분석을 "상황을 쪼개어 분석하는 것" 이라는 말이 와닿았다. 예전 회사에서 항상 raw data를 범주화 하고, 나름 피벗테이블로 이렇게 저렇게 묶어보고 쪼개보면서 가설→검증 을 하고, 보고를 하는 일을 많이 했었는데 이걸 이렇게 깔끔하게 한마디로 정리 해 주시다니 감격스러웠다.

실제 현업에서 본인이 업무를 처리하는 방식을 정리해서 일목요연하게 설명하는게 쉽지 않았을텐데,,, 역시.. 이 강의를 사길 잘했어...!

특히 예시를 들며 설명하는게,,, 진짜 일하면서 맞닥뜨릴만한 예시라 훨씬 더 공감이 갔다.

데이터 요청 업무에서의 무한루프...

A : "이런 저런 데이터 주세요"
B : "네...?"

A : "이런 저런 데이터 주세요"
B : "여기요"
A : "혹시 월별로도 나눠서 볼 수 있나요?"
A : "남녀로나눠 주실 수 있나요?..."

흔히 있던 일이었지... 내가 필요한 데이터를 달라고했을때 1.요구사항을 제대로 이해하지 못하거나, 2.데이터를 받아보니 새로운 가설이 생겨서 더 데이터가 필요해졌을때... 일할때 정말 자주 있는 일이지 ( •᷄⌓•᷅ ) (그래서 항상 raw data따로 받았음)

정말 내가 과거에 많이 겪었던 일들을 어떻게 이렇게 잘 알고있으신거지??

데이터 분석 프로세스

가설 수립 → 데이터 전처리 → 데이터 탐색 → Deep - Dive 분석 → 분석 결과 공유

가설 수립

데이터 전처리 (=데이터 클렌징, 데이터 wrangling) , 데이터 분석에서 80%를 차지함

"Garbage in, Garbage out,"
아무리 열심히 분석해도 애초에 들어가는 데이터가 쓰레기면 나오는것도 쓰레기 🚮

  1. 결측치 (missing value)
    보통 평균값을 채워줌
    평균을 구할 수 없으면 최빈값을 채워줌
  2. 중복 데이터
    같은 데이터라면 중복은 제거함
  3. 부정확한 데이터 타입
    적절한 데이터 타입으로 수정
  4. 이상치 (outlier)
    많지 않다면 제거

데이터 탐색 (Exploratory Data Analysis, EDA)

"아~ 모아둔 데이터는 이런 특징이 있구나"
데이터를 훑어보고 맛을 보는

Deep-Dive 분석

"가설에 맞게 상황을 더 쪼개서 보거나 모델링을 진행하는 단계"

분석결과 공유
이건 그냥 커뮤니케이션, 보고, 등등의 과정... 이것도..강의끝에 알려주시려나?

0개의 댓글