AWS Redshift와 GCP Bigquery의 비교

Yihoon·2024년 5월 11일
0

AWS활용기

목록 보기
4/7

네이버 블로그에서 작성한 글을 옮긴 것으로, 일부 양식이 맞지 않을 수 있습니다.

모 교육기업에서 커리큘럼 구성에 있어 참고하기 위해 알아봐 달라고 의뢰를 받았던 내용인데, 전달한 모든 내용을 다 옮기기는 조심스럽고, 핵심 포인트들만 간단하게 정리해 본다.

클라우드 플랫폼에서 사용되는 DW 중 가장 주된 솔루션이 AWS Redshift 그리고 GCP Bigquery일 것이다.

물론 그 입지가 조금 약해졌다고는 하나 클라우드 플랫폼의 선두주자로서 AWS의 위치는 여전히 절대적이다. 하지만 유독 DW에 있어서는 Bigquery를 채택하는 기업 또한 흔히 살펴볼 수 있다.

둘 중 어느 솔루션을 사용해야 할 지 고민하는 경우가 많이 생길 텐데, 아래 포인트들을 비교해 보고 자신에게 유리한 솔루션을 찾는 것이 적절하다.

1. Bigquery는 단시간에 피크 처리가 많은 환경에 적합한 반면, Redshift는 일상적인 로드가 더 많은 환경에 적합하다.

이는 두 솔루션의 과금 구조 차이에서 기인하는데, Redshift는 단순히 데이터의 저장된 양에 비례하여 요금을 책정하는 반면 Bigquery는 저장 요금과 쿼리 요금을 별도로 책정한다.
따라서 수시로 쿼리가 요청되는 경우에는 쿼리 요금을 절약할 수 있는 Redshift가 유리한 상황이 많으며, 반면 요청이 드물게 발생하는 경우에는 저장 비용이 저렴한 Bigquery가 유리한 경우가 많다.

2. 요금 계산은 Bigquery가 더 어렵다.

1번에서 살펴본 것처럼 Bigquery는 요금 구조가 저장 요금과 쿼리 요금으로 나누어져 있다.
- Bigquery의 저장 요금은 TiB당 $20으로 책정되어 있으며, 장기 스토리지에 대해서는 50%의 할인이 적용된다. 또한 쿼리 요금은 TiB당 $6.25 혹은 Slot당 $0.04로 책정되어 있는데, 원하는 과금 방식을 선택할 수 있게 되어 있다. 즉 쿼리를 얼마나 날릴지가 요금 계산에 상당한 부분을 차지한다.
- 반면 Redshift의 경우 데이터의 양과 사용할 리소스가 정해지면 요금은 쉽게 계산이 가능하다. 인스턴스 수와 리소스가 정해지면 거기에 대해서는 고정된 요금만 지불하면 되기 때문이다. 예컨대 서울 리전의 경우 온디맨드 dc1.large 리소스는 시간당 $0.3으로 책정되어 있다. 물론 이는 리소스를 무엇을 사용할 것인지, 다중 AZ에 배포할 것인지, 예약 인스턴스를 사용할 것인지에 따라 달라질 수 있다.

각 서비스의 자세한 요금은 Bigquery 가격 책정 페이지Redshift 가격 책정 페이지를 참고하자.

3. Bigquery는 서버리스 구조이다.

서버리스는 양날의 검이다.
클러스터 구조, 즉 노드를 활용하는 Redshift와 달리 서버리스 환경이 제공되므로 관리와 확장에 있어 더욱 용이하다는 장점이 있다.
하지만 서버리스라는 말은 곧 백엔드 구조를 알 수 없다는 말이기도 하기 때문에, 상황에 따라서는 이것이 큰 제약으로 작용할 가능성도 배제할 수 없다.

  • 참고로 Redshift도 서버리스 버전인 Redshift serverless 솔루션이 따로 존재한다.

4. 기타 주요 차이점

  • Bigquery에서 지원하는 최대 컬럼 개수는 10,000개인 반면 Redshift에서 지원하는 최대 컬럼 개수는 1,600개로 훨씬 적다.
  • Bigquery는 쿼리의 스트림 처리를 지원하는 데 비해 Redshift는 마이크로배치 수준의 처리만 지원한다.
  • Bigquery의 머신러닝 관련 기능이 더 잘 구축되어 있으며, 테이블 파티셔닝 또한 Bigquery에서만 제공되는 기능이다.
profile
딴짓 좋아하는 데이터쟁이

0개의 댓글

관련 채용 정보