이론 학습!
데이터레이크
데이터웨어하우스
데이터마트
AWS, Oracle, HDFS는 데이터레이크, 데이터웨어하우스, 데이터마트를 구축하는 가상물리공간.
스파크란?
빅데이터 처리를 위한 고속 분산처리 엔젠 시스템
장점: 파이썬으로 스파크 환경을 접근해서 파이썬 언어로 스파크를 사용할 수 있다는 장점이 있음. -> 이것을 파이스파크라고 함.
시간 절약, 데이터를 스카를 사용하면 굳이 테이블을 나눠서 작업할 필요가 없음! 효율적인 측면에서 월등히 뛰어남.
필요한 능력
1. 데이터마트, 데이터웨어하우스 설계 경험 => 즉, 파이프라인 설계 경험
데이터 구조에 대해 깊게 고민해 보았는가
스파크
스파크 공부 필요!!!! 데이터 분석가 준비를 위해서는 엔지니어링도 함께 준비하기!
빅데이터는 넘파이?, 판다스 데이터 프레임으로 처리하지 못할 가능성이 큼! 이때 필요한 게 스파크!
다수 기업에서 스파크 사용 경험 우대!
AWS, Oracle, HDFS 클라우드 사용 경험
-> DL, DW, DM으로 어필을 하려면 해당 기술 스택을 왜 썼고, 그걸로 어떤 결과를 얻으려고 했는지 근거있게 말할 줄 알아야 함!
참고: 유튜브 데이터 파크