[AWS] Redshift

INYEONG KIM·2024년 8월 26일

AWS SAP 정리노트

목록 보기
2/14
post-thumbnail

Redshift

Amazon Redshift는 대규모 데이터 세트 저장 및 분석을 위해 설계된 완전 관리형 페타바이트 규모의 클라우드 기반 데이터 웨어하우스

Redshift 특징

  • Kinesis Data Firehose 의 목적지 데이터스토어로 사용 가능
    • RedShift에서 직접적으로 Kinesis Data stream 를 스트리밍하는 것은 X
  • 기본적으로 Redshift는 약 8시간마다 또는 노드당 5GB의 데이터 변경 후 또는 둘 중 먼저 도래하는 시점에 스냅샷을 생성
    • 재해가 발생한 경우 원본 리전의 스냅샷을 통해 Redshift 클러스터를 복원할 수 있다.
    • Redshift는 클러스터 정보를 사용하여 새 클러스터를 생성 --> 이후 스냅샷 데이터에서 모든 데이터베이스를 복원합니다.
    • 요청에 다른 가용 영역을 지정하지 않는 한 클러스터는 대상 AWS 리전과 시스템이 선택한 임의의 가용 영역에서 복원
  • Redshift는 OLTP(온라인 트랜잭션 처리) 지원 X
  • Database Migration Service 로도 마이그레이션 가능함 알아두기 (마찬가지로 DBMS이므로)

Redshift Spectrum

Redshift에 로드하지 않고 S3 데이터를 직접 쿼리

S3에 저장된 데이터를 그대로 쿼리 (Redshift 테이블에 데이터를 로드 X)

Redshift COPY 를 사용하여 S3 기반 기록 데이터를 Redshift에 로드한 뒤 쿼리를 하는 방법 역시 존재하나, 저장 데이터 소스가 S3일 경우 Redshift Spectrum을 통해 직접 쿼리하는 것이 비용효율적 (Glue ETL 역시 마찬가지)

profile
미래의 저를 위해 작성하는 중입니다 🙆‍♂️

0개의 댓글