이론 학습

HA_·2024년 7월 16일

이론 학습!

데이터레이크
데이터웨어하우스
데이터마트
AWS, Oracle, HDFS는 데이터레이크, 데이터웨어하우스, 데이터마트를 구축하는 가상물리공간.

스파크란?
빅데이터 처리를 위한 고속 분산처리 엔젠 시스템
장점: 파이썬으로 스파크 환경을 접근해서 파이썬 언어로 스파크를 사용할 수 있다는 장점이 있음. -> 이것을 파이스파크라고 함.
시간 절약, 데이터를 스카를 사용하면 굳이 테이블을 나눠서 작업할 필요가 없음! 효율적인 측면에서 월등히 뛰어남.

필요한 능력
1. 데이터마트, 데이터웨어하우스 설계 경험 => 즉, 파이프라인 설계 경험
데이터 구조에 대해 깊게 고민해 보았는가

  • 데이터 분석가가 이미 구축된 데이터 파이프라인에서 데이터를 손쉽게 추추랗고 분석할 수 있도록 환경이 잘 구축된 경우도 있지만 그렇지 않은 경우도 비일비재함.
    따라서 이런 경우 데이터 분석가가 직접 원하는 데이터를 어떤 방식으로든 얻어야할 수 있기 때문에 지속적이라면 데이터마트, 데이터웨어하우스 설계에 개입될 수 밖에 없음.
    데이터 분석가가 어떤 데이터를 볼지 모른 채로 설계를 할 수 없기 때문에 데이터 구조를 깊게 고민한 사람을 우대하게 됨.
  1. 스파크
    스파크 공부 필요!!!! 데이터 분석가 준비를 위해서는 엔지니어링도 함께 준비하기!
    빅데이터는 넘파이?, 판다스 데이터 프레임으로 처리하지 못할 가능성이 큼! 이때 필요한 게 스파크!
    다수 기업에서 스파크 사용 경험 우대!

  2. AWS, Oracle, HDFS 클라우드 사용 경험
    -> DL, DW, DM으로 어필을 하려면 해당 기술 스택을 왜 썼고, 그걸로 어떤 결과를 얻으려고 했는지 근거있게 말할 줄 알아야 함!

  • 분석가는 이 부분에 대해 깊게 알 필요는 없지만, 만약 데이터파이프라인을 AWS에 설계를 했다면 왜 AWS 혹은 HDFS에 설계를 했는지에 대한 명확한 이유를 알고 있어야 함!

참고: 유튜브 데이터 파크

0개의 댓글