AWS에서 제공하는 서버리스 형태의 완전 관리형 데이터 웨어하우스로 페타바이트 급 확장이 가능하며 컬럼 포맷을 통해 데이터를 저장해 더 나은 I/O 효율성을 제공합니다. PostgreSQL 기반이며 대규모 병렬 처리, 데이터 압축을 통해 효율적인 데이터 저장 및 최적의
레드시프트의 특징은 여러가지가 있는데요, 그 중 빠른 성능, 간단신속한 확장과 백업, 데이터 레이크 쿼리를 이 세가지를 꼽아보았습니다.1) 빠른 성능입니다.레드시프트는 기존의 데이터웨어 하우스보다 10배 빠른 성능을 자랑합니다. 그것이 가능한 것은 기계학습, 대량 병렬
AWS Glue 는 간단하게 ETL 서비스라고 할 수 있는데 ETL 서비스에 대해서 이해하고 있다면 보다 쉽게 AWS Glue 에 대해 이해할 수 있고Data Warehouse 의 개념이나 구조에 대해서도 어느 정도 이해가 있으면 좋다고 생각한다.AWS 에서는 다음과
위의 쿼리를 실행하였을때 mysql에서는 빠르게 데이터를 가져올 수 있으나 redshift에서는 오랜 시간이 걸리는 것을 볼 수 있다.그 이유는 mysql에서는 각각의 데이터블록에 각각 행별로 데이터가 들어가 있지만redshift의 경우 데이터블록에 각각 컬럼별로 데이
기존의 DataFrame이라는 자료구조를 사용하는 spark에, 새로운 자료구조인 DynamicFrame을 Glue에서는 사용한다.이유 : AWS의 다른 서비스와의 통합을 조금 더 수월하게 수행하기 위해 재정의함 DataFrames'테이블' 형태를 기반으로 한 자료구
모든 개발자 및 Data Scientist들이 ML(Machine Learning) 모델을 빠르게 구축, 훈련 및 배포할 수 있도록 하는 모듈식의 완전 관리형 서비스AI가 예측을 하려면 수많은 데이터에 라벨링 작업을 해야 한다이는 노가다성이 굉장히 짙고 시간이 오래걸린
대용량 스트리밍 데이터를 수집하고, 처리 및 분석할 수 있다. 이를 통해, 데이터를 실시간 처리해 S3와 같은 스토리지에 저장한 후, 다양한 일괄 처리를 할 수 있다.Kinesis는 한 샤드당 초당 1000개 레코드 또는 1MB 까지 수집할 수 있다.데이터 생산자 →
스트리밍 데이터란?응용 프로그램에서 생성한 로그 파일웹 애플리케이션 또는 모바일 애플리케이션의 고객 상호 작용 데이터금융 주식 시장 데이터IOT 장치 데이터(센서, 성능 모니터 등)그렇다. 스트리밍 데이터는 많은 데이터 소스에서 연속적으로 생성되는 데이터이다. 이런 데
AWS System Manager의 여러 기능 중 하나입니다.참고로 System Manager에는 5개 유형의 기능을 제공합니다.Operations ManagementApplication ManagementChange ManagementNode ManagementSha
대규모 병렬 처리(MPP): Redshift는 대규모 병렬 처리를 지원하는 아키텍처로 설계되었습니다. 이는 여러 노드에서 동시에 데이터를 처리하고 분석할 수 있게 해주어 대용량 데이터셋에 대한 쿼리 실행 시간을 대폭 줄여줍니다.컬럼 기반 스토리지: Redshift는 컬
DistKey는 테이블의 데이터가 클러스터의 노드들 사이에 어떻게 분산될지를 결정합니다. 데이터 분산 방식은 쿼리의 성능과 직접적으로 관련이 있으며, 올바르게 설정되지 않으면 데이터가 특정 노드에 집중되어 성능 병목 현상을 일으킬 수 있습니다.EVEN Distribut
Redshift는 노드 기반으로 요금이 부과되며 클러스터를 구성하는 노드의 수와 유형에 따라 비용이 달라진다.온디맨드 요금: 사용한 시간 단위로 비용이 청구된다. 즉시 확장하거나 축소할 수 있으며, 단기 프로젝트나 일시적인 사용에 적합한 요금제 이다.예약 인스턴스 요금
Redshift 클러스터의 컴퓨팅 리소스를 사용하여 S3에 저장된 외부 데이터를 쿼리할 수 있다.내부 테이블과 외부 테이블을 조합하여 쿼리할 수 있다.Redshift의 SQL 기능을 모두 사용할 수 있다.컴퓨팅 리소스: Redshift 클러스터의 노드가 쿼리 처리를 담
Amazon Redshift 데이터를 Amazon S3로 이전하고 Amazon Athena를 사용하여 데이터를 쿼리해야 하는 경우를 데이터 레이크 아키텍처, 비용 절감, 서버리스 환경의 특징을 들어 설명한 금융 회사는 고객 거래 데이터를 Amazon Redshift에
Amazon Redshift에서는 테이블에서 질의한 보기(View)는 Amazon QuickSight 또는 Tableau 같은 BI(비즈니스 인텔리전스) 도구를 위해 사용할 수 있습니다. 다만, 사용 편의성과 유연성을 제공하지만 데이터 액세스의 속도를 높여 주지 않습