[AWS Cloud 구축 및 운영 Mini Project] 05. 클라우드 운영(Cloud Operation)에 대해

leny·2021년 6월 5일
0
post-thumbnail

✏️ 글의 구성

  1. 모니터링 대상
  2. Operation 팁
  3. 휴먼에러 사례

1. 모니터링 대상

: 데일리로, 아침마다 체크해야 할 대상
: 작업일지의 형식으로 해서 매일 기록해야 함

1. instance & ec2

1-1. ec2
: cpu 사용량(임계치 설정), 메모리 사용량, instance 상태, 디스크 사용량, 상태 검사

  • cloud watch 대시 보드에서 확인할 수 있는 부분 : cpu 사용량 , 메모리 사용량, 디스크 사용량 (참고로, cpu 빼고는 모두 유료이다)

  • cloud watch

  • ec2 > instance

1-2. IAM

  • aws 계정자격 증명 검토 - Root Access 금지
  • IAM 사용자 검토
  • User 변화 검토
  • MFA 설정 검토

2. 카테고리별 점검

2-1. Alert
: AWS 자체에서, Update 사항이 없었는지, AWS Alert 아이콘을 잘 점검해야 한다.

2-2. Trusted Advisor
점검해야 할 내용 : 권장사항에 대한 파악(aws 환경 분석을 해서 권장사항을 제공해주는 세션이 바로 trusted advisor이다)
점검 방법 : Action Recommend 부분을 잘 확인해야 한다.

2-3. EC2 resources
점검해야 할 내용 : cpu, memory, disk, iops 확인
점검 방법 : ec2 metrics 확인

-참고할 만한 글
AWS EBS(Elastic Block Storage) 비용 최적화 - iops
iops란?

(참고로 여기서, iops란 input/output operation per second라는 단어의 약어로,저장장치의 속도를 나타내는 측정 단위라고 보면 된다.)

2-4. Load Balancer
점검해야 할 내용 : ELB target Group health 부분 check 필요
점검 방법 : Metrics에서 확인

2-5. Backup
점검해야 할 내용 : 정기 backup 수행 여부 확인
점검 방법 : snapshot 확인/ DLM 확인

2-6. Storage
: Burstbalance 확인

  • Cloudwatch 대시보드 통해 확인 가능

AWS Trusted Advisor 모범 사례 체크리스트 - 비용 최적화

AWS 공식 docs- EBS 볼륨 유형

재밌는 글 - How to use CloudWatch metrics to decide between General Purpose or Provisioned IOPS for your RDS database

2. Cloud Operation TIPs

2-1. 태그(tag)

-Name, Environment, Project, Service 등의 함수 지정

  • 리소스 정리(필터링을 통해서 자원을 정리한다)
  • 비용할당 (태그로 billing report에서 비용분류)
  • 자동화(DLM 적용, 서버 자동 가동/중지)
  • 액세스 제어 (태그값에 따라서 IAM 권한 제한)

2-2. switch role

  • 여러 계정을 사용할 때 별도의 인증 절차 없이, 스위치 롤을 통해서 a>b계정으로 전환이 가능하다.

2-3. lambda 사용

  • 운영 자동화(서버 자동 기동/중지)
  • EC2 Health Check 중 이상 알람

2-4. Alias 사용

  • AWS 계정 ID 대신 회사 이름이나 기타 이름을 로그인 페이지에서 url로 사용할 때

ex) https://lenyheleny.signin.aws.amazon.com/console

  • 나의 의문점 : 원래 콘솔사이트/aws 포털 사이트의 주소지가 aws account id로 시작하던가...? 나의 경우에는 지역으로 시작하는 걸로 보이는데? > 확인할 사항

ex) https://ap-northeast-2.console .aws.amazon.com/console/home?region=ap-northeast-2#

3. 휴먼에러 사례

3-1. CSR 프로세스 미준수
고객이 csr 없이 전화로만 요청하는 경우 (가능하면 메일로라도 간단하게 달라고 요청해야 한다)
-> 장애 발생 (커뮤니케이션 오류 또는 고객의 잘못된 요청으로 휴먼에러가 발생한다)
-> 운영상 휴먼에러가 있을수 도 있다.

3-2. 정확한 작업 절차(order) 미준수

3-3. Netflix case

구축 후 일부로 장애가 발생하는 경우 >어떤 장애에 대응 가능한지, 그리고 장애 복구에 얼마나 소요되는지를 테스트해보기 위한 경우.

- Netflix사례

* 운영자의 마음 가짐
1. 휴먼에러를 최소화해야겠다.
2. 장애 발생 시 장애 시간을 최소화 해야겠다.
3. RPO / RTO를 정해두고, 최대한 목표치에 가깝게끔 노력해야겠다.

profile
행복과 성장에 대해 고민하는 사람🤓 , 포스팅 주기가 잦지 않을 수 있습니다만, 항상 좋은 내용을 담고자 합니다🙇🏼

0개의 댓글