현재 판교IT 회사에서 데이터 분석가로 근무하고 있다. 저희 회사는 데이터 분석을 하기에 굉장히 부적절(?)하고 어려운 환경을 가지고 있는데, 가장 큰 이유는 대부분의 데이터가 MongoDB에 적재 되고 있기 때문에 추출 및 분석이 굉장히 어렵기 때문이다.
데이터 분석가 관련 강의들을 보면 대부분 python, SQL를 활용하여 수집하고 tableau 등을 통해서 visualization 하는 강의들이 대부분이여서, 실무 경험이 없으신 분들은 NoSQL(aws document)에 대해서 생소할 수도 있다.
🤷♂️짧게 보고 가는 NoSQL 용어
한 줄 요약하면, Not Only SQL이라는 의미로 개발지향적 데이터베이스라고 이해하면 된다.
개발하기에 굉장히 편리한 구조의 DB라고 생각하면 되고,
궁금하신 분들이 많을 것인데,
데이터 추출, 분석을 위해 설계된 DB가 아니기 때문에, 데이터를 조회, 추출하는 과정이 굉장히 오래걸리고 서버에 부하가 많이간다. 더해서 문법 자체가 달라서 MongoDB의 경우 aggregation을 학습해야 하는 병목이 있다.
코드를 작성하더라도, 3개 이상의 컬렉션을 $lookup하게 되는 경우 서버부하가 걸리면서 돌아가지 않는 경우도 발생한다.
데이터 분석가가 일하기에는 정확히 이런 느낌이다
면접이나 커피챗에서 NoSQL 사용 숙련도를 물어보면 도망치거나 데이터엔지니어가 될 각오를 해야한...더보기
서론이 길었으나, 회사에서 본격적인 데이터NoSQL로 적재되고 있는 MongoDB 데이터를 RDBMS로 옮기는 프로젝트를 진행하게 되었고, 굉장히 많은 우여곡절을 겪고 있기 때문에 많은 분들에게 도움이 되고자 글을 작성한다.
우리가 그리고자 하는 간소화된 데이터 아키텍쳐를 미리보면 아래와 같다.
이 아키텍쳐를 짜는 데만 해도 많은 리서치가 필요했다.😮💨
이 시리즈를 계속 이어나갈 수 있는 끈기를 나에게 있기를..