- 데이터란?
-데이터는 기본적으로 우리가 관찰 할 수 있는 모든 사실, 수치, 통계를 컴퓨터 시스템에 수집(Digitization)한 것이다.
-웹 / 모바일 디바이스 / IoT 센서 등 여러 기술의 발전을 통해 더욱 다양하고, 많은 양의 데이터를 수집할 수 있게되었다.
- 데이터 팀
데이터 팀이 하는 일
-크게 보면, 데이터팀은 신뢰할 수 있는 데이터를 사용하여 부가가치를 생성하는 일을 한다고 볼 수 있다. 이를 세분화하면 A. Decision Science와 B. Product Science로 나눌 수 있다
- A. Decison Science : 고품질 데이터를 기반으로 의사결정권자에게 insight를 제공.
데이터를 기반으로 지표(KPI)를 정의하거나, Dashboard를 통해 데이터를 시각화하고 관련
보고서를 작성
- B. Product Science : 고품질 데이터를 기반으로 사용자 서비스 경험 개선 혹은 프로세스 최적화.
머신러닝과 같은 알고리즘을 통해 사용자의 서비스 경험을 개선하거나, 공장의 공정과정에서 오류를 최소화 혹은 기기 고장 예측등을 수행
개인은 무엇을 할까?
-일반적으로 데이터 팀에있는 A. 데이터 엔지니어(DE) // B. 데이터 분석가(DA) //
C. 데이터 과학자(DS) 3종류의 사람들이 어떤 업무를 하는지 알아보자.
- A. Data Engineer : 데이터 인프라가 구축되지 않았다면 이를 수행한다. ETL을 통해 데이터 웨어하우스에 데이터를 적재하고, Spark와 같은 빅데이터 처리 기술 및 Airflow와 같은 스케쥴러를 통해 적재된 데이터를 관리한다.
ETL(Extract/Transform/Load) : 다양한 Source로부터 필요한 데이터를 모아 데이터 웨어하우스로 모으는 과정
- B. Data Analyst : ETL된 데이터를 조합하여 새로운 정보를 생성한다(ELT). 데이터에 대한 분석을 수행하며 좋은 지표를 정의하고, Dashboard 생성/관리 및 데이터 기반 보고서를 작성한다.
ELT(Extract/Load/Transform) : 데이터 웨어하우스에 적재된 테이블을 모아 사용하기 쉬운 형태로 join하여
새로운 테이블을 만드는 작업.
- C. Data Scientist : 분석된 데이터를 활용하여 데이터 과학을 적용하고, 머신러닝 모델을 만들어서 수행하여 부가가치를 창출한다.
데이터 팀원들이 기억하면 좋은 것들
- 당연하지만, 데이터의 품질은 매우 중요하다. Input이 쓰레기면 Output도 쓰레기일 확률이 높다
- 사실 데이터 직종이 가장 많이 해야하는 일은 데이터 청소 작업이다.
- 항상 지표를 먼저 생각하는 것이 좋다.
- 솔루션과 관련해서는 되도록 심플한 쪽으로 선정하자. (occam's razor)
- A/B test에 대해서 알고있으면 좋다.
A/B test: 사용자를 두 그룹으로 나누어 A그룹에게는 기존 기능을 노출, 다른 그룹 B에는 새로운 기능을 노출하고
둘의 차이를 KPI로 비교하는 테스트이다.
- 마무리
마지막 학기 캡스톤디자인 프로젝트, 컴파일러 과제, 데브코스 등등 여러가지가 많이 겹쳐 정신이 없지만 열심히 해보자!