모니터링 및 분석
Amazon CloudWatch
AWS 설명 : DevOps 엔지니어, 개발자, SRE(사이트 안전성 엔지니어) 및 IT 관리자를 위해 구축된 모니터링 및 관찰 기능 서비스입니다. CloudWatch는 애플리케이션을 모니터링하고, 시스템 전반의 성능 변경 사항에 대응하며, 리소스 사용률을 최적화하고, 운영 상태에 대한 통합된 보기를 확보하는 데 필요한 데이터와 실행 가능한 통찰력을 제공합니다.
- 주요 서비스들에 대한 모니터링(로그, 지표 등) 제공
- EC2, Auto Scailing Groups, ELB, Route53
- CloudFront, EBS, Storage Gateway 등등
- 주요 서비스의 출력 결과 기록 (Lambda 등)
- 지표(metric) 수집
- EC2, DynamoDB, RDS 등의 시간 순서별 데이터요소 집합
- ex. CPU 사용량, 네트워크 I/O 등
주요 기능
지표 수집
- 지표 : EC2, DynamoDB, RDS 등의 시간 순서별 데이터요소 집합
- 다양한 서비스의 퍼포먼스를 모니터링 하기 위해 지표 작성
경보(Alarm)
- 수집된 지표 값에 따라 알림 생성 가능
- 일정 수치로 도달하거나 이상/이하일 때 이벤트 발생
- 다양한 방법으로 대응 가능
- SNS로 Lambda 실행, 이메일 전달 등
- ex. 웹서버의 500에러가 일정 수치 이상일 때 슬랙 알림
로그 수집 및 관리
- 수집된 로그를 Kinesis, S3등 다른 서비스/계정으로 전달 가능
- Lambda, EC2, Route53, ECS 등 여러 AWS 서비스의 로그를 수집
대시보드
- 수집한 로그/지표를 기반으로 대시보드를 구성
- 외부 리소스를 활용해서 커스텀 대시보드 구성 가능
- ex. S3 객체 표시, HTML 커스텀 그래프 표시
규칙
- AWS의 이벤트 처리
- EventBridge 서비스로 이관
AWS Health DashBoard
Service Health DashBoard
- AWS에서 제공하는 서비스의 상태 정보 제공
- 각 날짜별 서비스 상태 히스토리 제공
- 모든 리전의 서비스 제공
- RSS 피드를 통해 구독 가능
- 별도의 로그인 없이 볼 수 있음
Personal Health DashBoard
- 개인(계정)의 서비스 상태를 제공해주는 대시보드
- 실제 사용하는 서비스 관련 내용만 제공
- 현재 다운된 서비스 혹은 장애를 일으키고 있는 서비스 확인 가능
- 기타 주의할 점 등을 정리해서 알려줌
- ex. S3중 퍼블릭 애세스가 부여된 버킷을 정리해서 알려줌
- CloudWatch 알람을 통해 장애 혹은 다운 이벤트 대응 가능
- ex. EC2의 하드웨어가 망가져서 교체 예정
Amazon QuickSight
AWS 설명 : 클라우드 규모의 BI(Business Intelligence) 서비스로, 어디서든 함께 작업하는 사람들에게 이해하기 쉬운 인사이트를 제공하는데 사용할 수있습니다.
- AWS의 BI 서비스
- 누적된 데이터 및 정보를 모아 가시화하고 비교, 분석
- 다양한 AWS 서비스, 외부 소스와 결합 가능
- S3, RDS, DynamoDB, Athena, Redshift
- Spark, Jira, Twitter, Github
- AWS와 별도의 서비스