SINFROAD 장애 발생

Sinf·2022년 8월 26일
0

고민의 흔적

목록 보기
36/38
post-thumbnail

SINFROAD는 Oracle Cloud에서 무료로 제공되는 인스턴스를 사용하고 있다. 저사양이지만, 개발 서버로 사용하기에 좋아 사용하고 있다.

갑자기 25일 저녁 뜬금없는 메일을 받았다.

뜬금없이 알림이라니?
4월부터 사용했는데, 처음이었다.
대수롭지 않게 여기고 넘어갔다.

접속 장애

오늘 아침 웹에 접근했다.

😅

접속이 불가능하다.

해결하자.. 해결..

어떤 문제가 있었는가?

일단, 이벤트 알림 메일을 자세히 봤다.

The Oracle Cloud Infrastructure team detected the instance(s) identified below rebooted one or more times during the incident window listed in this notification, due to an error within the underlying infrastructure.

한 번 혹은 여러 번 인스턴스가 리부트되었다.

API 서버가 동작하는가?

리부트가 되었다면 서버가 종료되었을 가능성이 높았다.
배포된 API 서버를 확인해봤더니
역시나 종료.

일단 다시 서버를 실행시켰다.

아직 안된다.

nginx의 문제가 있는가?

nginx의 상태를 확인해봤다.
active.
살아있다.
혹시 설정 문제? 설정은 그대로.

도메인 문제?

혹시 인스턴스가 리부트 되면서 IP가 달라졌나?
혹시 도메인에 연결된 IP와 인스턴스의 IP가 달라졌을까?

도메인과 인스턴스 IP 확인해봤는데 문제 없었다.

클라우드 네트워크 룰?

혹시 클라우트 네트워크 룰에서 443, 80을 막고 있는가?
확인해보니 이전에 사용했던 그대로 방화벽 룰은 설정되어 있었다.

우분투 내 방화벽?

마지막으로 우분투 내에서 방화벽을 확인해봤다.
ufw는 비활성화되어 있었다. 그럼 문제는 아니고.

iptables를 확인해봤다.
INPUT 테이블을 확인해봤는데, dist port가 80, 443인 것에 대한 ACCEPT 룰이 없다.

설마?

$ sudo iptables -I INPUT 1 -p tcp --dport 80 -j ACCEPT
$ sudo iptables -I INPUT 1 -p tcp --dport 443 -j ACCEPT

방화벽 룰을 추가했다.

살아났다..

일단, 처음부터 nginx, API 서버 문제였다면 아마 nginx 503 에러가 뜨거나 nginx 단에서 에러 메시지가 발생했을거라고 생각했다.

아예 접근이 거절된 상황이라 방화벽인 것 같긴 했다만,
우분투가 재시작되면서 룰이 초기화된 것 같다.

그리고

그리고 장애를 해결하면서
네트워크 룰에서 SSH에 대한 접근이 anywhere로 되어있어,
IP를 조정해 접근을 제한했다.

재시작되더라도 iptables가 초기화되지 않도록
방법을 찾아야겠다.

참고자료

profile
주니어 개발자입니다. 🚀

0개의 댓글