3/10 정리

잼우·2022년 3월 12일
1

*공부한 내용을 토대로 혼자서 정리하는 글입니다.
틀린 부분이나 보충할 부분 지적 언제든 환영합니다 :)


프록시(proxy)

프록시(Proxy)란?

- 원 서버를 대리하여 통신하며 캐시, 로드밸런서, 보안 등 중계 역할을 하는 하는 서버
- 프록시 서버가 중간에 위치하기 때문에 클라이언트는 프록시 서버를 ‘서버’라고 인식하고,
서버 입장에서는 프록시 서버를 ‘클라이언트’로 인식하게 됨

  • 포워드 프록시(forward proxy) : 포워드 프록시를 말하며, 이는 클라이언트-서버 구조에서 클라이언트 쪽을 대리하며, 클라이언트에서 서버로 리소스를 요청할 때 직접 요청하지 않고 프록시 서버를 거쳐서 요청
  • 리버스 프록시(reverse proxy) : 애플리케이션 서버의 앞에 위치하여 클라이언트가 서버에 요청할 때 리버스 프록시를 호출하고, 리버스 프록시가 원 서버로부터 응답을 전달받아 다시 클라이언트에게 전송하는 역할

캐시의 기본 원리 및 적용

캐시가 없을 때

  • 데이터가 변경되지 않아도 계속 네트워크를 통해서 데이터를 다운로드 받아야함
  • 인터넷 네트워크는 매우 느리고 비쌈
  • 브라우저 로딩 속도가 느림
  • 느린 사용자 경험 제공

- 클라이언트가 logo.jpg 이미지에 대한 요청을 보내고 서버가 해당 이미지에 대한 응답을 줄 때, HTTP 헤더가 0.1M, 바디가 1.0M로 총 1.1M로 가정
- 같은 이미지를 다시 요청하더라도 첫 번째처럼 똑같이 1.1M의 응답을 보내야 함
- logo.jpg 데이터가 변경되지 않아도 계속 데이터를 새로 다운받아야 하는 경우 발생

캐시 적용

- 캐시는 캐시의 접근 시간에 비해 원래 데이터를 접근하는 시간이 오래 걸리는 경우값을 다시 계산하는 시간을 절약하고 싶은 경우에 사용
- 캐시에 데이터를 미리 복사해 놓으면 계산이나 접근 시간 없이 더 빠른 속도로 데이터에 접근
- 브라우저에 캐시를 저장할 땐 헤더에 cache-control 속성을 통해 캐시가 유효한 시간을 지정 가능 (60초로 설정한다면 60초 동안은 해당 캐시가 유효하다는 의미)

- 브라우저 캐시에 해당 응답 결과를 저장하며 이는 60초간 유효함

캐시 적용 - 캐시 시간이 초과했을 경우

  • 캐시 덕분에 캐시 가능 시간동안 네트워크를 사용하지 않아도 됨
  • 비싼 네트워크 사용량을 줄일 수 있음
  • 브라우저 로딩 속도가 매우 빠름
  • 빠른 사용자 경험 제공

- 캐시가 존재하고 아직 60초가 지나지 않아 유효한 캐시라면 해당 캐시에서 데이터를 가져옴

-> 만약 캐시의 유효시간이 초과한다면 어떻게 해야할까?

- 다시 서버에 요청을 하고 60초간 유효한 logo.jpg 이미지를 응답을 받음
- but, 이때 다시 네트워크 다운로드가 발생함

  • 캐시 유효 시간이 초과하면, 서버를 통해 데이터를 다시 조회하고, 캐시를 갱신함
  • 이때 다시 네트워크 다운로드가 발생함

캐시 검증 헤더와 조건부 요청

검증 헤더와 조건부 요청

Last-Modified 와 If-Modified-Since

-> 만약 캐시 유효시간이 초과하더라도 서버 데이터가 변경되지 않았다면 그대로 캐시 데이터를 사용하는 방법은 없을까?

  • 응답 헤더의 Last-Modified 에는 데이터 최종 수정일 정보가 담김

  • 캐시 유효시간이 초과되더라도 If-Modified-Since 헤더를 이용해 조건부 요청을 할 수 있음

  1. 데이터가 수정되었는지 검증
  2. 수정되지 않았다면 바디를 제외한 HTTP 헤더만 전송 (헤더만 포함된 0.1M만 전송)
  3. 브라우저 캐시에서 응답 결과를 재사용, 헤더 메타데이터 또한 갱신
  4. 브라우저는 캐시에서 조회한 데이터를 랜더링

Last-Modified 와 If-Modified-Since 정리

- 캐시 유효 시간이 초과해도, 서버의 데이터가 갱신되지 않으면?
-> 304 Not Modified + 헤더 메타데이터만 응답 (바디 X)
- 클라이언트는 서버가 보낸 응답 헤더 정보로 캐시의 메타데이터를 갱신
-클라이언트는 캐시에 저장되어 있는 데이터 재활용
- 결과적으로 네트워크 다운로드가 발생하지만 용량이 적은 헤더 정보만 다운로드
- 매우 실용적인 해결책

Last-Modified 와 If-Modified-Since 단점

- 1초 미만 (0.x 초) 단위로 캐시 조정이 불가능
- 날짜 기반의 로직 사용
- 데이터를 수정해서 날짜가 다르지만, 같은 데이터를 수정해서 데이터 결과가 똑같은 경우
- 서버에서 별도의 캐시 로직을 관리하고 싶은 경우
e.g. 스페이스나 주석처럼 영향이 없는 변경에서 캐시를 유지하고 싶은 경우

ETag 와 If-None-Match

- Last-Modified와 If-Modified-Since보다 좀 더 간단한 방식
- ETag (Entity Tag)
- 캐시용 데이터에 임의의 고유한 버전 이름을 달아둠
e.g. ETag : "v1.1", ETag: "61df5ee64dd726cd4dc7e72c7dd957a1"
- 데이터가 변경되면 이 이름을 바꾸어서 변경함 (Hash를 다시 생성)
e.g. ETag : "845eed07c5887cf" -> ETag : "3ac587fa90544fdc"
- 단순하게 ETag만 보내서 같으면 유지, 다르면 다시 받는 방식

- 서버에서 헤더에 ETag를 작성해 응답
- 클라이언트의 캐시에서 해당 ETag 값을 저장

  • 캐시 유효시간이 초과되더라도 If-None-Match 헤더를 이용해 조건부 요청을 할 수 있음

  1. 데이터가 수정되었는지 ETag 를 이용해 검증
  2. 수정되지 않았다면 바디를 제외한 HTTP 헤더만 전송
  3. 브라우저 캐시에서 응답 결과를 재사용, 헤더 메타데이터 또한 갱신
  4. 브라우저는 캐시에서 조회한 데이터를 랜더링

ETag 와 If-None-Match 정리

- 단순하게 ETag 만 보내서 같으면 유지, 다르면 다시 받는 방식
- 캐시 제어 로직을 서버에서 완전히 관리
- 클라이언트는 단순히 이 값을 서버에 제공(클라이언트는 캐시 매커니즘을 모름)
e.g.
1. 서버는 베타 오픈 기간인 3일 동안 파일이 변경되어도 ETag를 동일하게 유지
2. 애플리케이션 배포주기에 맞추어 ETag 갱신

Cache - Control

캐시 지시어 (directives)

  • Cache - Control : max - age
    - 캐시 유효기간, 초 단위
  • Cache - Control : no - cache
    - 데이터는 캐시해도 되지만, 항상 원(Origin) 서버에 검증하고 사용
  • Cache - Control : no - store
    - 데이터에 민감한 정보가 있으므로 저장하면 안됨
    (메모리에서 사용하고 최대한 빨리 삭제)

Expires

  • Expores : Mon, 01 Jan 1990 00:00:00 GMT
  • 캐시 만료일을 정확한 날짜로 지정
  • HTTP 1.0부터 사용
  • 지금은 더 유연한 Cache - Control : max - age 권장
  • Cache - Control : max - age 와 함께 사용하면 Expires 는 무시됨

검증 헤더와 조건부 요청 헤더

  • 검증 헤더 (Validator)
    - ETag : "v1.0", ETag : "845eed07c5887cf"
    - Last-Modified : Wed, 26 Dec 2020 12:01:29 GMT
  • 조건부 요청 헤더
    - If-Match, If-None-Match : ETag 값 사용
    - If-Modified-Since, If-Unmodified-Since : Last-Modified 값 사용

프록시 캐시(Proxy Cache)

프록시 캐시

원 서버 직접 접근

- 한국에서 미국까지 직접 접근하여 data 를 가져오는데 0.5초가 걸린다고 가정
- 한국에 있는 클라이언트는 모두 0.5초 가량을 기다려야 해당 이미지를 받을 수 있음
- but, 0.5초는 매우 긍정적인 상황이고, 실제로는 더 많은 시간이 걸릴 수 있음

-> 하지만 유튜브와 같은 해외 사이트에서 위와 같은 불편함 없이 빠르게 영상을 시청할 수 있을까?

프록시 캐시 도입

- 클라이언트와 원 서버 사이에 위치한 프록시 캐시 서버를 도입!

- 한국에 프록시 캐시서버를 두고 한국의 클라이언트는 프록시 캐시서버를 통해 자료를 가져옴
- 같은 국내에 있기에 원서버에 접근하는 것보다 훨씬 빠른 속도에 자료를 가져올 수 있음 (0.5초 → 0.1초)
- private 캐시 : 클라이언트에서 사용하고 저장하는 캐시
- public 캐시 : 프록시 캐시 서버의 캐시

Cache - Control

캐시 지시어 (directives) - 기타

  • Cache - Control : public
    - 응답이 public 캐시에 저장되어도 됨
  • Cache - Control : private
    - 응답이 헤더 사용자만을 위한 것, private 캐시에 저장해야 함 (기본값)
  • Cache - Control : s - maxage
    - 프록시 캐시에만 적용되는 max - age
  • Age : 60 (HTTP 헤더)
    - 오리진 서버에서 응답 후 프록시 캐시 내에 머문 시간 (초)

캐시 무효화

- 클라이언트가 캐시를 적용하지 않아도 임의로 브라우저가 캐시를 적용하는 경우, 특정 페이지에서 캐시가 되면 안 되는 정보(통장 잔고)가 있다면 어떻게 이를 무효화 할 수 있을까?

캐시 지시어 (directives)

  • Cache - Control : no - cache
    - 데이터는 캐시해도 되지만, 항상 원 서버에 검증하고 사용 (이름에 주의)
  • Cache - Control : no - store
    - 데이터에 민감한 정보가 있으므로 저장하면 안됨
    (메모리에서 사용하고 최대한 빨리 삭제)
  • Cache - Control : must - revalidate
    - 캐시 만료 후 최초 조회 시 원 서버에 검증해야함
    - 원 서버 접근 실패 시 반드시 오류가 발생해야 함 - 504 (Gateway Timeout)
    - must - revalidate 는 캐시 유효 시간이라면 캐시를 사용함
  • Pragma : no -cache
    - HTTP 1.0 하위호환
  • Cache - Control : no - cache, no - store, must - revalidate
  • Pragma : no -cache
    → 캐시를 무효화를 확실하게 해야 하는 경우 Pragma와 같은 하위 호환까지 포함하여 적용

no - cache vs must - revalidate
no cache 기본동작

  1. 캐시 서버 요청
  2. 프록시 캐시 서버에 도착
  3. no-cache인 경우 원 서버에 요청
  4. 서버에서 검증 후 304 응답

no - cache vs must - revalidate
원 서버 접근 불가 시 : no - cache

- 원 서버에 접근이 불가할 때, 200 OK으로 응답함
(응답으로 오류가 아닌 오래된 데이터라도 보여주자라는 개념)

no - cache vs must - revalidate
원 서버 접근 불가 시 : must - revalidate

- 원 서버에 접근이 불가할 때 504 Gateway Timeout 오류 발생
(통장 잔고 등 중요한 정보가 원 서버를 못 받았다고 해서 예전 데이터가 뜨면 큰 문제가 발생할 수 있음)


CDN (Content Delivery Network)

CDN의 특징

  • 원본을 복사하여 저장할 여러갠의 캐시 서버로 구성
  • 콘텐츠를 요청받은 경우 데티어를 전달히기 가장 유리한 캐시 서버에서 관련 콘텐츠를 제공
  • 제공할 콘텐츠를 가지고 있으면 위치상으로 가장 가까운 캐시 서버가 우선순위를 가짐
    - 세계 곳곳에 분포하는 데이터 센터에 콘텐츠를 저장
    - 이후 콘텐츠 요청을 받으면 지리적으로 가장 가까운 데이터 센터에서 콘텐츠를 제공해 주는 방식

정적 및 동적 콘텐츠

정적 콘텐츠 (Static contents)

  • 내용이 거의 변하지 않는 콘텐츠
  1. HTML 파일, 동영상과 같은 콘텐츠
  2. 변화가 없는 콘텐츠
  3. 개인화되지 않는 대중적인 콘텐츠
    - CDN의 캐시 서버에 저장하기 적합

동적 콘텐츠 (Dynamic contents)

  • 접속할때 마다 내용이 바뀌거나 사용자 마다 다른 내용을 보여주는 콘텐츠
  1. 위치, IP 주소, 사용시간 관련 콘텐츠
  2. 사용자가 접근할때 마다 내용이 달라지는 콘텐츠
  3. 카드번호, 전화번호 등 개인화된 정보 관련 콘텐츠
    - 콘텐츠가 바뀔때 마다 캐시 서버에 바뀐 콘텐츠가 전파 돼야 함
    → 공통적인 부분을 캐시 서버에 저장

CDN의 이점

  1. DDoS 공격에 대해 어느정도의 대응이 가능
    - 한 곳의 서버가 DDoS 공격을 받아 사용불가!
    → 지리적으로 가까운 다른 서버에서 콘텐츠 제공
  1. 로딩속도 감소로 인한 사용자 경험 향상
  1. 트래픽 분산으로 인한 트래픽 관련 비용 절감
    - 모든 요청을 하나의 서버에서 담당하려면 고성능의 서버 및 인터넷 수용력 필요
    → 서버를 세계 곳곳으로 분배
    → 낮은 성능의 인터넷, 서버로 감당 가능
    → 사용자 경험 향상 및 비용 절감 효과

시대에 따른 변화


profile
DevOps 새내기

0개의 댓글