Amazon Athena
Amazon OpenSearch Service
Amazon EMR
AWS Glue
Amazon Kinesis, Kinesis Data Streams, Firehose, Analytics
Amazon QuickSight
📒 Amazon Athena
- S3에서 표준 SQL을 사용하여 데이터를 쉽게 바로 분석할 수 있는 대화형 쿼리 서비스
- AWS Management Console에서 몇 가지 작업을 수행하면 S3에 저장된 데이터에서 Athena를 가리키고, 표준 SQL을 사용하여 임시 쿼리를 실행하고, 몇 초 안에 결과를 얻을 수 있다.
- 서버리스 서비스이므로 설정하거나 관리할 인프라가 없으며, 실행한 쿼리에 대해서만 비용을 지불
- Athena에서는 쿼리를 동시에 실행하여 규모를 자동으로 조절한다.
- 많은 데이터 세트와 복잡한 쿼리가 있더라도 결과를 빠르게 도출한다.
- S3에 저장된 비정형, 반정형 및 정형 데이터를 분석하는데 도움을 준다.
📒 Amazon OpenSearch Service
- 연산 측면에서는 RDS와 비슷하다는 점
- 보안은 Cognito, IAM, VPC, KMC, SSL을 제공한다.
- Multi-AZ, 클러스터링, 페타바이트 급 기능
- 데이터를 검색하거나 인덱싱하는 서비스
📒 Amazon EMR
- Apache Spark, Hive, HBase, Flink, Hudi 및 Presto와 같은 오픈 소스 도구를 사용하여 방대한 양의 데이터를 처리하기 위한 클라우드 빅 데이터 플랫폼이다.
- EMR을 사용하면 기본 온프레미스 솔루션의 50%도 안되는 비용으로 표전 Apache Sparkqhek 3배 이상 빠르게 페타바이트 규모의 분석을 실행 가능하다.
- 단기 실행 작업의 경우 클러스터를 가동 및 중단하고 사용된 인스턴스에 따라 초 단위로 지불한다.
- 로그 분석을 자동으로 제공 / 맞춤형 로그 분석 애플리케이션을 구축하고 EC2에서 호스팅하는 것 보다 경제적이다.
- ELB 로그 파일을 저장하기 위한 S3와 로그 파일을 분석하기 위한 EMR옵션이 적합하다.
- S3 및 DynamoDB와 같은 기타 데이터 스토어 및 데이터베이스에서 많은 양의 데이터를 양방향으로 변환하고 이동할 수 있다.
📒 AWS Glue
- 완전히 관리되는 ETL 서비스로 효율적인 비용으로 간단하게 여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동한다.
$ ETL서비스 : Extract, Transform, Load (추출, 변환, 적재)
- 고객이 분석을 위해 데이터를 쉽게 준비하고 로드할 수 있다.
- 일괄 ETL ETL 데이터 처리와 서버리스이다.
📒 Amazon Kinesis
- kinesis Data Streams, kinesis Data Firehose, Kinesis Analytics 3가지 옵션이 있다.
- 데이터 수집 후 Data Firehose 전송 스트림으로 보낸다.
- 스트림의 데이터 레코드 보존 기간에 대한 변경을 지원한다.
- 대규모 데이터 레코드 스트림을 실시간으로 수집하고 처리할 수 있다.
- 데이터가 기록될 때 데이터 스트림에서 데이터를 읽는다.
- Kinesis Client Librart를 사용하며 EC2 인스턴스에서 실행될 수 있다.
- 처리된 레코드를 대시보드로 보내거나, 알림을 생성하는데 사용하거나, 요금 및 광고 전략을 동적으로 변경하거나, 다른 여러 AWS 제품에 데이터를 보낼 수 있다.
- 스트림 당 최대 20명의 소비자를 등록하여 향상된 팬아웃을 사용 가능하다.
- 실시간으로 읽고 쓸 수 있는 정렬된 순서의 데이터 레코드이다. 따라서, 데이터 레코드는 스트림의 샤드에 일시적으로 저장된다.
- 데이터가 추가된 시점부터 더 이상 액세스할 수 없는 시점까지의 기간을 보관 기간이라고 한다.
- 레코드를 기본적으로 24시간 동안, 최대 168시간 까지 저장가능하다.
🔔 Kinesis Data Streams
-
대규모 데이터를 수집하고 처리할 수 있다.
-
스트리밍 데이터의 데이터 레코드가 실시간으로 표시된다.
-
일반적인 Kinesis Data Streams 애플리케이션은 스트림데이터를 코드로 이러한 애플리케이션은 Kinesis 클라이언트 라이브러리를 사용할 수 있으며 Amazon EC2 인스턴스에서 실행될 수 있다.
-
처리된 레코드를 대시보드로 보내거나, 알림을 생성하는 데 사용하거나, 요금 및 광고 전략을 동적으로 변경하거나, 다른 레코드에 데이터를 보낼 수 있다.
Kinesis Data Streams 상위 수준 아키텍처
🔔 kinesis Data Firehose
- 스트리밍 데이터를 안정적으로 캡처하고 변환하여 데이터 레이크, 데이터 스토어, 분석 서비스에 전달하는 추출, 변환 로드 서비스입니다.
- Kinesis Data Firehose는 스트리밍 ETL 솔루션이다.
- 스트리밍 데이터를 데이터 스토어와 분석 도구에 로드하는 가장 쉬운 방법이다.
- 스트리밍 데이터를 캡처하고 변환한 후 Amazon S3, Amazon Redshift, Amazon OpenSearch Service 및 Splunk로 로드하여 이미 사용하고 있는 기존 비즈니스 인텔리전스 도구 및 대시보드를 통해 거의 실시간으로 분석할 수 있다.
- Amazon Kinesis Data Firehose는 데이터 처리량에 맞춰 자동으로 크기가 조정되며 지속적인 관리가 필요 없는 완전관리형 서비스이다.
또한, 데이터를 로드하기 전에 배치, 압축 및 암호화하여 대상 스토리지의 사용량을 최소화하고 보안을 강화할 수 있습니다.
🔔 kinesis Data Analytics
- Apache Flink를 사용하여 실시간으로 스트리밍 데이터를 변환하고 분석할 수 있는 가장 쉬운 방법이다.
- Kinesis Data Analytics는 Apache Flink 애플리케이션을 구축 및 관리하고 다른 AWS 서비스와 통합하는 데 따르는 복잡성을 줄여준다.
- 스트리밍 애플리케이션의 지속적 실행에 필요한 모든 작업을 처리하며, 수신 데이터의 볼륨과 처리량에 맞춰 자동으로 확장된다.
- 서버를 관리할 필요가 없고, 최소 요금이나 설치 비용도 없으며, 스트리밍 애플리케이션이 소비하는 리소스에 대해서만 결제하면 된다.
📒 Amazon QuickSight
- QuickSight는 매우 빠르고 사용이 간편한 클라우드 기반 비즈니스 분석 서비스로써 (비즈니스 인텔리전스 서비스), 조직 내 모든 직원이 언제든 어느 디바이스에서나 자신의 데이터를 사용해 손쉽게 시각화를 구축하고, 임시 분석을 수행하며, 신속하게 비즈니스 통찰력을 확보할 수 있다.
- CSV 파일과 Excel파일을 업로드하고, Salesforce와 같은 SaaS 애플리케이션에 연결하고, SQL Server, MySQL 및 PostgreSQL과 같은 온프레미스 데이터베이스에 액세스하고, Amazon RedShift, RDS, Aurora, Athena 및 S3와 같은 데이터 소스를 원활하게 검색할 수 있다.
- 조직에서는 QuickSight를 사용하여 비즈니스 분석 기능을 수십만 명의 사용자로 확장하고, 강력한 인 메모리 엔진(spice)을 사용하여 빠르고 응답성이 뛰어난 쿼리 성능을 제공할 수 있다.
- 관리할 서버가 없으며, 사용량에 따라 지불한다.