현업에서 장애가 발생했던 상황을 간단히 공유하려고 한다.
시리즈로 계획중이나.. 그렇게 많이 발생하지는 않는 환경이라 몇 편이 될지..
개발을 잘 해서가 아니라 그 정도 트래픽이 안나온다
OpenSearch의 샤드 배치가 안됐다.
사실 주니어 개발자였고, ES 관련된 부분은 많이 찾아보지 않아서 여러모로 확인에 애를 먹고 있었다.
사용하는것과 관리하는것은 다른 부분이기에 그러한 설정 부분과 공식문서 등을 유심히 찾아본 결과
클러스터에 '각 노드에 설정 가능한 최대 샤드 갯수'를 설정할 수 있다는 사실을 알게 되었다.
cluster.max_shards_per_node
해당 옵션의 default 는 1000개인데, 알고보니 개발환경 OpenSearch는 이미 1000개가 배치되어 있었다.
해결 방안은 두 가지다
현업에서는 모든 부분에 있어 다양한 요소를 두고 판단한다.
당연히 계속 확장하면 좋지만 그 비용도 우리가 내야한다.
특히 상황이 어려울수록 클라우드 비용 절감은 중요한 요소이다
그러나 우리는 회의 끝에, 노드를 증가시키는 의사 결정을 했고, 이를 통해 안정성을 확보했다.
단순히 ES의 사용 뿐 아니라 인프라 관리 및 설정 등에 대해서도 중요성을 체감할 수 있었다.