[DevCourse] Day 1 - 데이터와 데이터 팀

한상우·2023년 11월 21일
0

Data Science Devcourse

목록 보기
1/25
  1. 데이터란?

-데이터는 기본적으로 우리가 관찰 할 수 있는 모든 사실, 수치, 통계를 컴퓨터 시스템에 수집(Digitization)한 것이다.

-웹 / 모바일 디바이스 / IoT 센서 등 여러 기술의 발전을 통해 더욱 다양하고, 많은 양의 데이터를 수집할 수 있게되었다.

  1. 데이터 팀

데이터 팀이 하는 일

-크게 보면, 데이터팀은 신뢰할 수 있는 데이터를 사용하여 부가가치를 생성하는 일을 한다고 볼 수 있다. 이를 세분화하면 A. Decision ScienceB. Product Science로 나눌 수 있다

  • A. Decison Science : 고품질 데이터를 기반으로 의사결정권자에게 insight를 제공.
    데이터를 기반으로 지표(KPI)를 정의하거나, Dashboard를 통해 데이터를 시각화하고 관련
    보고서를 작성
  • B. Product Science : 고품질 데이터를 기반으로 사용자 서비스 경험 개선 혹은 프로세스 최적화.
    머신러닝과 같은 알고리즘을 통해 사용자의 서비스 경험을 개선하거나, 공장의 공정과정에서 오류를 최소화 혹은 기기 고장 예측등을 수행

개인은 무엇을 할까?

-일반적으로 데이터 팀에있는 A. 데이터 엔지니어(DE) // B. 데이터 분석가(DA) //
C. 데이터 과학자(DS) 3종류의 사람들이 어떤 업무를 하는지 알아보자.

  • A. Data Engineer : 데이터 인프라가 구축되지 않았다면 이를 수행한다. ETL을 통해 데이터 웨어하우스에 데이터를 적재하고, Spark와 같은 빅데이터 처리 기술 및 Airflow와 같은 스케쥴러를 통해 적재된 데이터를 관리한다.
ETL(Extract/Transform/Load) : 다양한 Source로부터 필요한 데이터를 모아 데이터 웨어하우스로 모으는 과정
  • B. Data Analyst : ETL된 데이터를 조합하여 새로운 정보를 생성한다(ELT). 데이터에 대한 분석을 수행하며 좋은 지표를 정의하고, Dashboard 생성/관리 및 데이터 기반 보고서를 작성한다.
ELT(Extract/Load/Transform) : 데이터 웨어하우스에 적재된 테이블을 모아 사용하기 쉬운 형태로 join하여
새로운 테이블을 만드는 작업.
  • C. Data Scientist : 분석된 데이터를 활용하여 데이터 과학을 적용하고, 머신러닝 모델을 만들어서 수행하여 부가가치를 창출한다.

데이터 팀원들이 기억하면 좋은 것들

  • 당연하지만, 데이터의 품질은 매우 중요하다. Input이 쓰레기면 Output도 쓰레기일 확률이 높다
  • 사실 데이터 직종이 가장 많이 해야하는 일은 데이터 청소 작업이다.
  • 항상 지표를 먼저 생각하는 것이 좋다.
  • 솔루션과 관련해서는 되도록 심플한 쪽으로 선정하자. (occam's razor)
  • A/B test에 대해서 알고있으면 좋다.
A/B test: 사용자를 두 그룹으로 나누어 A그룹에게는 기존 기능을 노출, 다른 그룹 B에는 새로운 기능을 노출하고
둘의 차이를 KPI로 비교하는 테스트이다.
  1. 마무리
    마지막 학기 캡스톤디자인 프로젝트, 컴파일러 과제, 데브코스 등등 여러가지가 많이 겹쳐 정신이 없지만 열심히 해보자!
profile
개인 공부용 블로그입니다

0개의 댓글

관련 채용 정보