네이버 블로그에서 작성한 글을 옮긴 것으로, 일부 양식이 맞지 않을 수 있습니다.
모 교육기업에서 커리큘럼 구성에 있어 참고하기 위해 알아봐 달라고 의뢰를 받았던 내용인데, 전달한 모든 내용을 다 옮기기는 조심스럽고, 핵심 포인트들만 간단하게 정리해 본다.
클라우드 플랫폼에서 사용되는 DW 중 가장 주된 솔루션이 AWS Redshift 그리고 GCP Bigquery일 것이다.
물론 그 입지가 조금 약해졌다고는 하나 클라우드 플랫폼의 선두주자로서 AWS의 위치는 여전히 절대적이다. 하지만 유독 DW에 있어서는 Bigquery를 채택하는 기업 또한 흔히 살펴볼 수 있다.
둘 중 어느 솔루션을 사용해야 할 지 고민하는 경우가 많이 생길 텐데, 아래 포인트들을 비교해 보고 자신에게 유리한 솔루션을 찾는 것이 적절하다.
이는 두 솔루션의 과금 구조 차이에서 기인하는데, Redshift는 단순히 데이터의 저장된 양에 비례하여 요금을 책정하는 반면 Bigquery는 저장 요금과 쿼리 요금을 별도로 책정한다.
따라서 수시로 쿼리가 요청되는 경우에는 쿼리 요금을 절약할 수 있는 Redshift가 유리한 상황이 많으며, 반면 요청이 드물게 발생하는 경우에는 저장 비용이 저렴한 Bigquery가 유리한 경우가 많다.
1번에서 살펴본 것처럼 Bigquery는 요금 구조가 저장 요금과 쿼리 요금으로 나누어져 있다.
- Bigquery의 저장 요금은 TiB당 $20으로 책정되어 있으며, 장기 스토리지에 대해서는 50%의 할인이 적용된다. 또한 쿼리 요금은 TiB당 $6.25 혹은 Slot당 $0.04로 책정되어 있는데, 원하는 과금 방식을 선택할 수 있게 되어 있다. 즉 쿼리를 얼마나 날릴지가 요금 계산에 상당한 부분을 차지한다.
- 반면 Redshift의 경우 데이터의 양과 사용할 리소스가 정해지면 요금은 쉽게 계산이 가능하다. 인스턴스 수와 리소스가 정해지면 거기에 대해서는 고정된 요금만 지불하면 되기 때문이다. 예컨대 서울 리전의 경우 온디맨드 dc1.large 리소스는 시간당 $0.3으로 책정되어 있다. 물론 이는 리소스를 무엇을 사용할 것인지, 다중 AZ에 배포할 것인지, 예약 인스턴스를 사용할 것인지에 따라 달라질 수 있다.
각 서비스의 자세한 요금은 Bigquery 가격 책정 페이지와 Redshift 가격 책정 페이지를 참고하자.
서버리스는 양날의 검이다.
클러스터 구조, 즉 노드를 활용하는 Redshift와 달리 서버리스 환경이 제공되므로 관리와 확장에 있어 더욱 용이하다는 장점이 있다.
하지만 서버리스라는 말은 곧 백엔드 구조를 알 수 없다는 말이기도 하기 때문에, 상황에 따라서는 이것이 큰 제약으로 작용할 가능성도 배제할 수 없다.