: 데일리로, 아침마다 체크해야 할 대상
: 작업일지의 형식으로 해서 매일 기록해야 함
1-1. ec2
: cpu 사용량(임계치 설정), 메모리 사용량, instance 상태, 디스크 사용량, 상태 검사
1-2. IAM
2-1. Alert
: AWS 자체에서, Update 사항이 없었는지, AWS Alert 아이콘을 잘 점검해야 한다.
2-2. Trusted Advisor
점검해야 할 내용 : 권장사항에 대한 파악(aws 환경 분석을 해서 권장사항을 제공해주는 세션이 바로 trusted advisor이다)
점검 방법 : Action Recommend 부분을 잘 확인해야 한다.
2-3. EC2 resources
점검해야 할 내용 : cpu, memory, disk, iops 확인
점검 방법 : ec2 metrics 확인
-참고할 만한 글
AWS EBS(Elastic Block Storage) 비용 최적화 - iops
iops란?
(참고로 여기서, iops란 input/output operation per second라는 단어의 약어로,저장장치의 속도를 나타내는 측정 단위라고 보면 된다.)
2-4. Load Balancer
점검해야 할 내용 : ELB target Group health 부분 check 필요
점검 방법 : Metrics에서 확인
2-5. Backup
점검해야 할 내용 : 정기 backup 수행 여부 확인
점검 방법 : snapshot 확인/ DLM 확인
2-6. Storage
: Burstbalance 확인
AWS Trusted Advisor 모범 사례 체크리스트 - 비용 최적화
-Name, Environment, Project, Service 등의 함수 지정
ex) https://lenyheleny.signin.aws.amazon.com/console
ex) https://ap-northeast-2.console .aws.amazon.com/console/home?region=ap-northeast-2#
3-1. CSR 프로세스 미준수
고객이 csr 없이 전화로만 요청하는 경우 (가능하면 메일로라도 간단하게 달라고 요청해야 한다)
-> 장애 발생 (커뮤니케이션 오류 또는 고객의 잘못된 요청으로 휴먼에러가 발생한다)
-> 운영상 휴먼에러가 있을수 도 있다.
3-2. 정확한 작업 절차(order) 미준수
3-3. Netflix case
구축 후 일부로 장애가 발생하는 경우 >어떤 장애에 대응 가능한지, 그리고 장애 복구에 얼마나 소요되는지를 테스트해보기 위한 경우.
* 운영자의 마음 가짐
1. 휴먼에러를 최소화해야겠다.
2. 장애 발생 시 장애 시간을 최소화 해야겠다.
3. RPO / RTO를 정해두고, 최대한 목표치에 가깝게끔 노력해야겠다.