Databricks 시작하기

이상우·2022년 5월 10일
0

입사할 당시 Back-end로 들어왔지만, CTO께서 제가 데이터 엔지니어에도 관심이 많다는 것을 알고, Data Processing팀으로 옮기게 되었고, DP에서 하는 기본적인 업무 외에 DP업무 확장 개념으로 databricks를 활용해 data lake를 구축을 맡게 되었습니다.

Databricks 활용 계획은 아래와 같습니다.

1. BI 시스템 구축

  • 기존에 업무 보고서는 슬랙봇을 활용하여 각 프로젝트를 하나의 csv로 모으는 것이였습니다. 이것을 데이터 레이크에 담고, databricks에서 제공해주는 BI툴을 활용하여 지표나 통계로 활용할 것입니다.

2. 전사 데이터 통합 관리 및 활용

  • 기존의 플랫폼, 자율주행으로 수집한 데이터, 스마트 라벨링에 필요한 데이터 등을 하나의 data lake에 담아, 데이터를 쉽게 관리하고 바로 활용할 수 있도록 할 것입니다.

To-Do List

  • 기존에 있는 mongodb 데이터를 databricks에서 ETL적용 후 테이블 구축
  • 통계로 쓰일 테이블 구축 및 적재
profile
구상한것을 구현할 수 있는 개발자가 되고 싶습니다.

0개의 댓글