*공부한 내용을 토대로 혼자서 정리하는 글입니다.
틀린 부분이나 보충할 부분 지적 언제든 환영합니다 :)
- 원 서버를 대리하여 통신하며 캐시, 로드밸런서, 보안 등 중계 역할을 하는 하는 서버
- 프록시 서버가 중간에 위치하기 때문에 클라이언트는 프록시 서버를 ‘서버’라고 인식하고,
서버 입장에서는 프록시 서버를 ‘클라이언트’로 인식하게 됨
- 포워드 프록시(forward proxy) : 포워드 프록시를 말하며, 이는 클라이언트-서버 구조에서 클라이언트 쪽을 대리하며, 클라이언트에서 서버로 리소스를 요청할 때 직접 요청하지 않고 프록시 서버를 거쳐서 요청
- 리버스 프록시(reverse proxy) : 애플리케이션 서버의 앞에 위치하여 클라이언트가 서버에 요청할 때 리버스 프록시를 호출하고, 리버스 프록시가 원 서버로부터 응답을 전달받아 다시 클라이언트에게 전송하는 역할
- 데이터가 변경되지 않아도 계속 네트워크를 통해서 데이터를 다운로드 받아야함
- 인터넷 네트워크는 매우 느리고 비쌈
- 브라우저 로딩 속도가 느림
- 느린 사용자 경험 제공
- 클라이언트가 logo.jpg 이미지에 대한 요청을 보내고 서버가 해당 이미지에 대한 응답을 줄 때, HTTP 헤더가 0.1M, 바디가 1.0M로 총 1.1M로 가정
- 같은 이미지를 다시 요청하더라도 첫 번째처럼 똑같이 1.1M의 응답을 보내야 함
- logo.jpg 데이터가 변경되지 않아도 계속 데이터를 새로 다운받아야 하는 경우 발생
- 캐시는 캐시의 접근 시간에 비해 원래 데이터를 접근하는 시간이 오래 걸리는 경우나 값을 다시 계산하는 시간을 절약하고 싶은 경우에 사용
- 캐시에 데이터를 미리 복사해 놓으면 계산이나 접근 시간 없이 더 빠른 속도로 데이터에 접근
- 브라우저에 캐시를 저장할 땐 헤더에 cache-control 속성을 통해 캐시가 유효한 시간을 지정 가능 (60초로 설정한다면 60초 동안은 해당 캐시가 유효하다는 의미)- 브라우저 캐시에 해당 응답 결과를 저장하며 이는 60초간 유효함
- 캐시 덕분에 캐시 가능 시간동안 네트워크를 사용하지 않아도 됨
- 비싼 네트워크 사용량을 줄일 수 있음
- 브라우저 로딩 속도가 매우 빠름
- 빠른 사용자 경험 제공
- 캐시가 존재하고 아직 60초가 지나지 않아 유효한 캐시라면 해당 캐시에서 데이터를 가져옴
-> 만약 캐시의 유효시간이 초과한다면 어떻게 해야할까?
- 다시 서버에 요청을 하고 60초간 유효한 logo.jpg 이미지를 응답을 받음
- but, 이때 다시 네트워크 다운로드가 발생함
- 캐시 유효 시간이 초과하면, 서버를 통해 데이터를 다시 조회하고, 캐시를 갱신함
- 이때 다시 네트워크 다운로드가 발생함
-> 만약 캐시 유효시간이 초과하더라도 서버 데이터가 변경되지 않았다면 그대로 캐시 데이터를 사용하는 방법은 없을까?
- 응답 헤더의 Last-Modified 에는 데이터 최종 수정일 정보가 담김
- 캐시 유효시간이 초과되더라도 If-Modified-Since 헤더를 이용해 조건부 요청을 할 수 있음
- 데이터가 수정되었는지 검증
- 수정되지 않았다면 바디를 제외한 HTTP 헤더만 전송 (헤더만 포함된 0.1M만 전송)
- 브라우저 캐시에서 응답 결과를 재사용, 헤더 메타데이터 또한 갱신
- 브라우저는 캐시에서 조회한 데이터를 랜더링
- 캐시 유효 시간이 초과해도, 서버의 데이터가 갱신되지 않으면?
-> 304 Not Modified + 헤더 메타데이터만 응답 (바디 X)
- 클라이언트는 서버가 보낸 응답 헤더 정보로 캐시의 메타데이터를 갱신
-클라이언트는 캐시에 저장되어 있는 데이터 재활용
- 결과적으로 네트워크 다운로드가 발생하지만 용량이 적은 헤더 정보만 다운로드
- 매우 실용적인 해결책
- 1초 미만 (0.x 초) 단위로 캐시 조정이 불가능
- 날짜 기반의 로직 사용
- 데이터를 수정해서 날짜가 다르지만, 같은 데이터를 수정해서 데이터 결과가 똑같은 경우
- 서버에서 별도의 캐시 로직을 관리하고 싶은 경우
e.g. 스페이스나 주석처럼 영향이 없는 변경에서 캐시를 유지하고 싶은 경우
- Last-Modified와 If-Modified-Since보다 좀 더 간단한 방식
- ETag (Entity Tag)
- 캐시용 데이터에 임의의 고유한 버전 이름을 달아둠
e.g. ETag : "v1.1", ETag: "61df5ee64dd726cd4dc7e72c7dd957a1"
- 데이터가 변경되면 이 이름을 바꾸어서 변경함 (Hash를 다시 생성)
e.g. ETag : "845eed07c5887cf" -> ETag : "3ac587fa90544fdc"
- 단순하게 ETag만 보내서 같으면 유지, 다르면 다시 받는 방식- 서버에서 헤더에 ETag를 작성해 응답
- 클라이언트의 캐시에서 해당 ETag 값을 저장
- 캐시 유효시간이 초과되더라도 If-None-Match 헤더를 이용해 조건부 요청을 할 수 있음
- 데이터가 수정되었는지 ETag 를 이용해 검증
- 수정되지 않았다면 바디를 제외한 HTTP 헤더만 전송
- 브라우저 캐시에서 응답 결과를 재사용, 헤더 메타데이터 또한 갱신
- 브라우저는 캐시에서 조회한 데이터를 랜더링
- 단순하게 ETag 만 보내서 같으면 유지, 다르면 다시 받는 방식
- 캐시 제어 로직을 서버에서 완전히 관리
- 클라이언트는 단순히 이 값을 서버에 제공(클라이언트는 캐시 매커니즘을 모름)
e.g.
1. 서버는 베타 오픈 기간인 3일 동안 파일이 변경되어도 ETag를 동일하게 유지
2. 애플리케이션 배포주기에 맞추어 ETag 갱신
- Cache - Control : max - age
- 캐시 유효기간, 초 단위- Cache - Control : no - cache
- 데이터는 캐시해도 되지만, 항상 원(Origin) 서버에 검증하고 사용- Cache - Control : no - store
- 데이터에 민감한 정보가 있으므로 저장하면 안됨
(메모리에서 사용하고 최대한 빨리 삭제)
- Expores : Mon, 01 Jan 1990 00:00:00 GMT
- 캐시 만료일을 정확한 날짜로 지정
- HTTP 1.0부터 사용
- 지금은 더 유연한 Cache - Control : max - age 권장
- Cache - Control : max - age 와 함께 사용하면 Expires 는 무시됨
- 검증 헤더 (Validator)
- ETag : "v1.0", ETag : "845eed07c5887cf"
- Last-Modified : Wed, 26 Dec 2020 12:01:29 GMT- 조건부 요청 헤더
- If-Match, If-None-Match : ETag 값 사용
- If-Modified-Since, If-Unmodified-Since : Last-Modified 값 사용
- 한국에서 미국까지 직접 접근하여 data 를 가져오는데 0.5초가 걸린다고 가정
- 한국에 있는 클라이언트는 모두 0.5초 가량을 기다려야 해당 이미지를 받을 수 있음
- but, 0.5초는 매우 긍정적인 상황이고, 실제로는 더 많은 시간이 걸릴 수 있음-> 하지만 유튜브와 같은 해외 사이트에서 위와 같은 불편함 없이 빠르게 영상을 시청할 수 있을까?
- 클라이언트와 원 서버 사이에 위치한 프록시 캐시 서버를 도입!
- 한국에 프록시 캐시서버를 두고 한국의 클라이언트는 프록시 캐시서버를 통해 자료를 가져옴
- 같은 국내에 있기에 원서버에 접근하는 것보다 훨씬 빠른 속도에 자료를 가져올 수 있음 (0.5초 → 0.1초)
-private 캐시
: 클라이언트에서 사용하고 저장하는 캐시
-public 캐시
: 프록시 캐시 서버의 캐시
- Cache - Control : public
- 응답이 public 캐시에 저장되어도 됨- Cache - Control : private
- 응답이 헤더 사용자만을 위한 것, private 캐시에 저장해야 함 (기본값)- Cache - Control : s - maxage
- 프록시 캐시에만 적용되는 max - age- Age : 60 (HTTP 헤더)
- 오리진 서버에서 응답 후 프록시 캐시 내에 머문 시간 (초)
- 클라이언트가 캐시를 적용하지 않아도 임의로 브라우저가 캐시를 적용하는 경우, 특정 페이지에서 캐시가 되면 안 되는 정보(통장 잔고)가 있다면 어떻게 이를 무효화 할 수 있을까?
- Cache - Control : no - cache
- 데이터는 캐시해도 되지만, 항상 원 서버에 검증하고 사용 (이름에 주의)- Cache - Control : no - store
- 데이터에 민감한 정보가 있으므로 저장하면 안됨
(메모리에서 사용하고 최대한 빨리 삭제)- Cache - Control : must - revalidate
- 캐시 만료 후 최초 조회 시 원 서버에 검증해야함
- 원 서버 접근 실패 시 반드시 오류가 발생해야 함 - 504 (Gateway Timeout)
- must - revalidate 는 캐시 유효 시간이라면 캐시를 사용함- Pragma : no -cache
- HTTP 1.0 하위호환
- Cache - Control : no - cache, no - store, must - revalidate
- Pragma : no -cache
→ 캐시를 무효화를 확실하게 해야 하는 경우 Pragma와 같은 하위 호환까지 포함하여 적용
- 캐시 서버 요청
- 프록시 캐시 서버에 도착
- no-cache인 경우 원 서버에 요청
- 서버에서 검증 후 304 응답
- 원 서버에 접근이 불가할 때, 200 OK으로 응답함
(응답으로 오류가 아닌 오래된 데이터라도 보여주자라는 개념)
- 원 서버에 접근이 불가할 때 504 Gateway Timeout 오류 발생
(통장 잔고 등 중요한 정보가 원 서버를 못 받았다고 해서 예전 데이터가 뜨면 큰 문제가 발생할 수 있음)
- 원본을 복사하여 저장할 여러갠의 캐시 서버로 구성
- 콘텐츠를 요청받은 경우 데티어를 전달히기 가장 유리한 캐시 서버에서 관련 콘텐츠를 제공
- 제공할 콘텐츠를 가지고 있으면 위치상으로 가장 가까운 캐시 서버가 우선순위를 가짐
- 세계 곳곳에 분포하는 데이터 센터에 콘텐츠를 저장
- 이후 콘텐츠 요청을 받으면 지리적으로 가장 가까운 데이터 센터에서 콘텐츠를 제공해 주는 방식
- 내용이 거의 변하지 않는 콘텐츠
- HTML 파일, 동영상과 같은 콘텐츠
- 변화가 없는 콘텐츠
- 개인화되지 않는 대중적인 콘텐츠
- CDN의 캐시 서버에 저장하기 적합
- 접속할때 마다 내용이 바뀌거나 사용자 마다 다른 내용을 보여주는 콘텐츠
- 위치, IP 주소, 사용시간 관련 콘텐츠
- 사용자가 접근할때 마다 내용이 달라지는 콘텐츠
- 카드번호, 전화번호 등 개인화된 정보 관련 콘텐츠
- 콘텐츠가 바뀔때 마다 캐시 서버에 바뀐 콘텐츠가 전파 돼야 함
→ 공통적인 부분을 캐시 서버에 저장
- DDoS 공격에 대해 어느정도의 대응이 가능
- 한 곳의 서버가 DDoS 공격을 받아 사용불가!
→ 지리적으로 가까운 다른 서버에서 콘텐츠 제공
- 로딩속도 감소로 인한 사용자 경험 향상
- 트래픽 분산으로 인한 트래픽 관련 비용 절감
- 모든 요청을 하나의 서버에서 담당하려면 고성능의 서버 및 인터넷 수용력 필요
→ 서버를 세계 곳곳으로 분배
→ 낮은 성능의 인터넷, 서버로 감당 가능
→ 사용자 경험 향상 및 비용 절감 효과