code pipeline 으로 자동배포설정이 되어있다. 이전에는 별 문제가 없었으나 어느순간부터 꽤 높은확률로 배포가 실패하게 되었다.
ALB가 대상그룹으로 설정한 ECS 컨테이너에 대해 healthcheck를 하는데, 이때 대상그룹의 컨테이너가 unhealth 로 나오는 문제가 있었다.
이렇게 배포를 실패하다가도 한번씩 배포를 성공하는 문제였다. healthcheck 엔드포인트가 잘못되었거나 보안그룹의 문제일 경우 항상 배포에 실패해야하기 때문에 원인을 찾기 어려웠다.
AWS ECS 오류: 대상 그룹의 작업이 ELB 상태 확인에 실패했습니다. 포스팅에서 해결방법을 찾았는데, healthcheck 간격에 대한 문제였다. 컨테이너가 실행되는데 걸리는시간이 약 1분이상인데, 기본값인 30초로 healthcheck를 하면 비정상 임계값(2회)에 도달하는 경우가 많다.
검사 간격을 늘려 문제를 해결했다.