TIL - HA 와 방화벽 룰 설정

verve·2025년 4월 10일
0

📝 오늘 배운 내용 요약

보안 취약점 방화벽 예시

  • 이런 구조라고 했을때. 서버의 한 두대로는 성능이 충분하지 않아 10대의 웹 서버로 늘려서 사용하고 있다 ( 192.168.1.11 ~ 192.168.1.20)
  • 서버는 외부 서비스 불가, 프록시 서버를 통해서만 외부 접속 가능
  • 그러나 보안 업데이트나 리눅스 패키지 설치 위해 외부 인터넷이 필요한 경우가 있음
  • 이런 환경에서 서버가 외부로 나가기 위해 프록시 사용 필요하지만, 일부 서버는 예외적으로 직접 인터넷 연결 허용됨
  • 발생할 수 있는 문제점
    • 보안 정책상 외부 연결이 막혀 있어야 하지만, 내부 직원 편의를 위해 열려 있는 경우 존재
    • 특히 테스트 서버나 엔진 서버는 보안 정책 적용이 느슨함
    • 실무자들이 직접 명령어로 설치하거나 외부 접속 허용하는 경우 발생
    • 이는 사내 시스템이 외부 공격에 노출되는 심각한 취약점으로 이어질 수 있음

요점

  • 모든 서버는 명확한 정책 기반의 프록시 설정을 따라야 함
  • 필요 시 특정 사이트(예: 리눅스 패키지 서버)에만 접근 가능하도록 엄격히 제한 필요
  • 예외 허용은 최소화하고, 정책은 중앙 집중적으로 관리되어야 함

HA

고가용성(HA, High Availability) 구성 정리

HA(High Availability)란?

  • 시스템 장애 발생 시 자동으로 대체 장비가 서비스를 이어받는 구조
  • 서비스 중단 없는 연속성 보장이 핵심 목적
  • 네트워크, 방화벽, 서버, 데이터베이스 등 다양한 인프라에 적용 가능

고가용성 구성 방식 비교: Active-Active vs Active-Standby

구분Active-ActiveActive-Standby
구성 개념두 장비가 동시에 서비스 처리하나는 서비스, 하나는 대기
동작 방식둘 다 Active 상태로 로드 분산Active 장애 시 Standby가 자동 승계
장애 대응하나 죽어도 나머지가 트래픽 전부 감당Active 죽으면 Standby가 takeover
세션 동기화복잡함 (양방향 동기화 필요)단방향 동기화 (Active → Standby)
구현 난이도상대적으로 어려움비교적 단순하고 안정적
성능전체 성능 활용 가능성능은 절반만 사용
복구 시간빠름 (이미 처리 중이므로)빠르지만 전환 시간 약간 필요
사용 예시로드밸런서, 웹 서버 클러스터방화벽, VPN 게이트웨이, 라우터 등

상황별 선택 가이드

상황추천 구성
성능 극대화 + 무중단 원할 때Active-Active
안정성 + 단순 구성 우선일 때Active-Standby
보안장비(FW/IPS)에 주로 사용Active-Standby
서비스 서버(웹, API) 다중 처리 필요Active-Active

HA 구성 방식 유형

구성 방식설명
Active-Active모든 장비가 동시에 운영됨. 로드 분산 구조
Active-Standby하나는 동작(Active), 다른 하나는 대기(Standby) 상태 유지
N+1 구조여러 Active 장비 + 예비 장비 1대 구성
클러스터링서버/장비가 묶여 있고, 장애 시 클러스터 내 다른 노드로 역할 이동

액티브-스탠바이 모드 (Active-Standby Mode)

구성 개요

  • 1대는 실제 서비스(Active), 다른 1대는 대기(Standby) 상태
  • Active 장비에 장애 발생 시 → Standby 장비가 자동으로 서비스 인계

구성도

[사용자]
   │
[ISP]
   │
[Router]
   │
 ┌──────────────┐
 │  HA 그룹     │
 │              │
 │  ┌──────┐     │
 │  │ FW1  │◀─── 현재 Active
 │  └──────┘     │
 │              │
 │  ┌──────┐     │
 │  │ FW2  │     │
 │  └──────┘◀── Standby
 └──────────────┘
   │
[내부망/서버]

기술 요소

구성요소설명
Heartbeat 링크Active ↔ Standby 간 상태 동기화 및 Alive 체크
세션 동기화연결된 세션/상태 정보를 실시간으로 복제
FailoverActive 장비 장애 시 Standby가 IP, MAC takeover 수행

장점

  • 단일 장비 장애 시에도 서비스 무중단 유지
  • 네트워크 안정성과 가용성 보장

유의사항

  • HA 구성 장비 간의 세션 동기화 정확성 필수
  • 일부 트래픽 손실 발생 가능 → 세션 무결성 고려 필요
  • 이중화된 장비에 대한 정기적 동기화 테스트 필요

액티브-액티브 모드 (Active-Active Mode)

구성 개요

  • 두 장비 모두 Active 상태로 동시에 서비스를 처리함
  • 로드밸런서를 통해 트래픽이 양쪽 장비에 분산되어 들어옴
  • 어느 한 장비에 장애 발생해도 남은 장비가 전체 트래픽 처리 가능

구성도

[사용자]
   │
[로드밸런서 (L4/L7)]
   ├──────────────┐
   │              │
 ┌──────┐      ┌──────┐
 │ FW1  │◀─── Active
 └──────┘      └──────┘
               │ FW2  │◀─── Active
               └──────┘
   │              │
[내부망/서버]   [내부망/서버]

기술 요소

구성요소설명
로드밸런싱 장비L4 or L7 LB를 통해 트래픽 분산
상태 공유장애 감지 및 세션 공유 필요 (optional)
Failover한쪽 장애 발생 시 나머지가 즉시 전체 트래픽 처리
세션 유지Stateful 서비스의 경우 세션 공유 필수 or 세션 지속 필요 없음 구조 설계

장점

  • 전체 장비 자원을 100% 활용 가능 → 성능 효율 우수
  • 로드밸런싱 구조와 결합 시 확장성 및 유연성 뛰어남
  • 무중단 요구가 매우 높은 서비스(금융, 포털 등)에 적합

유의사항

  • 구성 난이도 높음: 세션 동기화, 장애 감지, 로드 분산 전략 필요
  • 세션 정보가 공유되지 않으면 일부 서비스에서 사용자 연결 끊김 발생 가능
  • 장애 복구 후 상태 재동기화(sync) 문제 발생 가능성 있음

실무 관점

  • 네이버, 카카오, 쿠팡 등 무순단 요구 환경에선 Active-Active 기반으로 설계함 (순단 시 과금/패널티 발생 → 반드시 방지해야 함)
  • 내부망이나 관리 시스템 등은 Active-Standby 구성도 충분 (비용↓, 관리 편의↑)

HA 구성에서의 L2 Fallback + 바이패스 스위치 구조

개념 요약

개념설명
L2 FallbackL2 수준에서 장비 장애 시 트래픽을 자동 우회시키는 기능
Bypass Switch인라인 장비(FW, IPS 등)가 다운되면, 전기적 회로 전환으로 트래픽 바이패스 시킴

구조 예시

[클라이언트]
     ↓
[바이패스 스위치] ───── FW/IPS ─────→ [내부망]
     │
     └──────→ (FW 다운 시) 트래픽 직접 우회됨

실무 적용 예

환경적용 방식
FW + IPS 인라인 환경바이패스 스위치로 인입 트래픽 자동 우회
HA 구성 중 스플릿브레인 방지heartbeat 신호 손실 시 경로 차단/전환
APT 대응 장비탐지기 장애 발생 시 서비스 우회 후 알람

유의사항

  • 바이패스된 트래픽은 보안 필터링 없이 내부로 들어감
  • 우회 중에는 침입 탐지/차단 모두 무력화됨 → 임시 장애 대응용으로만 사용
  • Fail-close (차단 유지) / Fail-open (우회) 정책 구분 필요

방화벽 룰 관리

방화벽 룰 정책 순서

방화벽은 위에서부터 룰을 순차적으로 탐색 → 처음 매칭된 룰을 바로 적용함

정책 구성 항목

  • 출발지 IP
  • 목적지 IP
  • 포트 / 프로토콜
  • 허용 or 차단
  • 기간 / 사유

주의사항

  • 중국 IP 등 보안에 취약할만한 요소들은 최상단에 배치 (제일 처음 적용해야할 룰임)
  • 클래스 단위 전체 허용은 보안 구멍임
  • any → any → TCP any 같은 전체 차단 룰은 무조건 맨 아래 있어야 함 → 안 그러면 상위 룰 다 무시되고 전체 막힘

실무에서 발생하는 룰 관리 이슈

  • 실무자 요청에 의해 임시로 허용된 any any가 나중에 삭제 안 됨
  • 방화벽 정책 요청 시 "일단 열어주세요" 하고 ACL 추가됨
  • ACL이 누적되면서 정리가 안 되고, 전체 성능 떨어지기도 함
  • 리턴 트래픽 안 들어온다고 포트 다 열어버리는 경우도 있음
  • (절대 열면 안 됨. 책임자한테 꼭 인계받고 방화벽 열 것)
profile
보안과 개발 그 어디사이에

0개의 댓글