오늘은 컴퓨터를 이용하다 보면 흔히 접할 수 있는 IP, 캐시가 무엇을 뜻하는지 살펴보고,
이를 네트워크 통신과 관련하여 더욱 깊이 탐구한다.
더불어 네트워크 흐름을 이해하기 위해서는 웹 통신을 가능하게 한 HTTP 통신의 흐름을 파악하는 것이 중요하다.
위 그림에서 볼 수 있듯이, HTTP 통신은 애플리케이션 계층에 속해 있다.
HTTP 통신을 깊이 이해하기 위해서는, TCP와 UDP 같이 보다 낮은 레벨의 프로토콜도 학습해야 한다.
지금 우리가 사용하는 인터넷 프로토콜, 즉 IP 기반의 네트워크는
미 국방성에서 1969년 진행했던 아르파넷(ARPANET) 프로젝트에서 시작되었다.
이 프로젝트는 당시 냉전시대에서 핵전쟁을 대비하기 위한 통신망 구축을 위해 추진되었다.
이때 기존에 사용되었던 회선교환 방식이 아닌 패킷교환 방식으로 네트워크를 구축하게 되는데
이를 토대로 현재의 인터넷 통신 방식의 기반이 세워졌다.
그럼 패킷교환 이전에 사용되었던 회선교환 방식은 어떻게 통신을 했을까?
회선교환 방식
패킷교환 방식은 기존에 전화에서 사용했던 회선교환 방식의 단점을 보완한 방식이다.
그럼 회선교환 방식은 어떻게 연결을 했을까?
이 사진의 여성분이 회선교환 중간에서 발신자와 수신자를 연결해 주는 전화교환원, 즉 오퍼레이터이다.
회선교환 방식은 발신자와 수신자 사이에 데이터를 전송할 전용선을 미리 할당하고 둘을 연결한다.
그래서 내가 연결하고 싶은 상대가 다른 상대와 연결 중이라면, 상대방은 이미 다른 상대와의
전용선과 연결되어 있기 때문에 그 연결이 끊어지고 나서야 상대방과 연결할 수 있다.
또한 특정 회선이 끊어지는 경우에는 처음부터 다시 연결을 성립해야 한다.
다음의 예를 통해 회선교환 방식에서 생길 수 있는 비효율을 살펴보자.
패킷교환 방식
회선이 사용 중이더라도 마냥 기다리지 않아도 되는 방법이 있을까?
아르파넷 프로젝트에서는 이 문제를 해결하기 위하여 패킷교환 방식의 네트워크를 고안했다.
패킷교환 방식은 패킷이라는 단위로 데이터를 잘게 나누어 전송하는 방식이다. 마치 소포를 보내듯이!
그래서 각 패킷에는 출발지와 목적지 정보가 있고
이에 따라 패킷이 목적지를 향해 가장 효율적인 방식으로 이동할 수 있다.
이를 이용하면 특정 회선이 전용선으로 할당되지 않기 때문에 빠르고 효율적으로 데이터를 전송할 수 있다.
그래서 인터넷 프로토콜, 줄여서 IP는 출발지와 목적지의 정보를
IP 주소라는 특정한 숫자값으로 표기하고 패킷단위로 데이터를 전송하게 되었다.
복잡한 인터넷 망 속 수많은 노드(서버 컴퓨터)들을 지나 어떻게 클라이언트와 서버가 통신할 수 있을까?
그래서 흔히 말하는 IP(인터넷 프로토콜) 주소를 컴퓨터에 부여하여 이를 이용해 통신한다.
IP는 지정한 IP 주소(IP Address)에 패킷(Packet)이라는 통신 단위로 데이터 전달을 한다.
IP 패킷에서 패킷은 pack과 bucket이 합쳐진 단어로 소포로 비유할 수 있다.
IP 패킷은 이를 데이터 통신에 적용한 것이라고 보면 된다.
IP 패킷은 우체국 송장처럼 전송 데이터를 무사히 전송하기 위해
출발지 IP, 목적지 IP와 같은 정보가 포함되어 있다.
패킷 단위로 전송을 하면 노드들은 목적지 IP에 도달하기 위해 서로 데이터를 전달한다.
이를 통해 복잡한 인터넷 망 사이에서도 정확한 목적지로 패킷을 전송할 수 있다.
서버에서 무사히 데이터를 전송받는다면 서버도 이에 대한 응답을 돌려줘야 한다.
서버 역시 IP 패킷을 이용해 클라이언트에 응답을 전달한다.
정확한 출발지와 목적지를 파악할 수 있다는 점에서
인터넷 프로토콜은 적절한 통신 방법으로 보이지만, 한계가 존재한다.
비연결성
첫 번째는 비연결성이다.
만약 패킷을 받을 대상이 없거나 서비스 불능 상태여도
클라이언트는 서버의 상태를 파악할 방법이 없기 때문에 패킷을 그대로 전송하게 된다.
비신뢰성
두 번째는 비신뢰성이다.
중간에 있는 서버가 데이터를 전달하던 중 장애가 생겨
패킷이 중간에 소실되더라도 클라이언트는 이를 파악할 방법이 없다.
또한 전달 데이터의 용량이 클 경우 이를 패킷 단위로 나눠 데이터를 전달하게 되는데
이때 패킷들은 중간에 서로 다른 노드를 통해 전달될 수 있다.
이렇게 되면 클라이언트가 의도하지 않은 순서로 서버에 패킷이 도착할 수 있다.
네트워크 프로토콜 계층은 다음과 같이 OSI 7계층과 TCP/IP 4 계층으로 나눌 수 있다.
IP 프로토콜 보다 더 높은 계층에 TCP 프로토콜이 존재하기 때문에
앞서 다룬 IP 프로토콜의 한계를 보완할 수 있다.
채팅 프로그램에서 메시지를 보낼 때 어떤 일이 일어나는지 자세히 알아보자.
먼저 HTTP 메시지가 생성되면 Socket을 통해 전달된다.
프로그램이 네트워크에서 데이터를 송수신할 수 있도록,
“네트워크 환경에 연결할 수 있게 만들어진 연결부“가 바로 네트워크 소켓(Socket)이다.
그리고 IP 패킷을 생성하기 전 TCP 세그먼트를 생성한다.
이렇게 생성된 TCP/IP 패킷은 LAN 카드와 같은
물리적 계층을 지나기 위해 이더넷 프레임 워크에 포함되어 서버로 전송된다.
TCP/IP 패킷에 대해 자세히 살펴보자.
TCP 세그먼트에는 IP 패킷의 출발지 IP와 목적지 IP 정보를 보완할 수 있는
출발지 PORT, 목적지 PORT, 전송 제어, 순서, 검증 정보 등을 포함한다.
TCP에는 다음 특징이 있다.
TCP는 같은 계층에 속한 UDP에 비해 상대적으로 신뢰할 수 있는 프로토콜이다.
3 way handshake
TCP는 장치들 사이에 논리적인 접속을 성립하기 위하여
3 way handshake를 사용하는 연결지향형 프로토콜이다.
연결 방식은 다음과 같다.
먼저 클라이언트는 서버에 접속을 요청하는 SYN 패킷을 보낸다.
서버는 SYN요청을 받고 클라이언트에게 요청을 수락한다는
ACK 와 SYN가 설정된 패킷을 발송하고 클라이언트가 다시 ACK으로 응답하기를 기다린다.
클라이언트가 서버에게 ACK을 보내면 이 이후로부터 연결이 성립되며 데이터를 전송할 수 있다.
만약 서버가 꺼져있다면 클라이언트가 SYN을 보내고 서버에서 응답이 없기 때문에 데이터를 보내지 않는다.
현재에는 최적화가 이루어져 3번 ACK을 보낼때 데이터를 함께 보내기도 한다.
데이터 전달 보증
또한 TCP는 데이터 전송이 성공적으로 이루어진다면,
이에 대한 응답을 돌려주기 때문에 IP 패킷의 한계인 비연결성을 보완할 수 있다.
순서 보장
만약 패킷이 순서대로 도착하지 않는다면,
TCP 세그먼트에 있는 정보를 토대로 다시 패킷 전송을 요청할 수 있다.
이를 통해 IP 패킷의 한계인 비신뢰성(순서를 보장하지 않음)을 보완할 수 있다.
UDP는 IP에 PORT, 체크섬 필드 정보만 추가된 단순한 프로토콜이다.
앞서 TCP 특징과 비교해 보면 신뢰성은 낮지만,
3 way handshake 방식을 사용하지 않기 때문에 TCP와 비교해 빠른 속도를 보장한다.
HTTP3는 UDP를 사용하며 이미 여러 기능이 구현된 TCP보다는
하얀 도화지처럼 커스터마이징이 가능하다는 장점이 있다.
해당 계층 모델은 ISO(International Organization for Standardization)라고 하는
국제표준화기구에서 1984년에 제정한 표준 규격이다.
왜 네트워크에 대한 표준 규격을 정해야만 했을까?
지금은 상상하기 어렵지만 같은 회사에서 만든 컴퓨터끼리만 통신이 가능했던 시절이 있었다.
따라서 다른 회사의 시스템이라도 네트워크 유형에 관계없이 상호 통신이 가능한 규약, 즉 프로토콜(Protocol)이 필요했다.
그래서 ISO에서는 제조사에 상관없이 공통으로 사용할 수 있는 네트워크 표준 규격을 정의했다.
OSI 7계층 모델은 네트워크를 이루고 있는 구성요소들을 7단계로 나누고, 각 계층의 표준을 정했다.
각 계층은 다음과 같이 구분된다.
데이터 캡슐화
OSI 7계층 모델은 송신 측의 7계층과 수신 측의 7계층을 통해 데이터를 주고받는다.
각 계층은 독립적이므로 데이터가 전달되는 동안에 다른 계층의 영향을 받지 않는다.
데이터를 전송하는 쪽은 데이터를 보내기 위해서 상위 계층에서 하위 계층으로 데이터를 전달한다.
이때 데이터를 상대방에게 보낼 때 각 계층에서 필요한 정보를 데이터에 추가하는데
이 정보를 헤더(데이터링크 계층에서는 트레일러)라고 한다.
그리고 이렇게 헤더를 붙여나가는 것을 캡슐화라고 한다.
마지막 물리 계층에 도달하며 송신 측의 데이터링크 계층에서
만들어진 데이터가 전기 신호로 변환되어 수신 측에 전송된다.
데이터를 받는 쪽은 하위 계층에서 상위 계층으로 각 계층을 통해 전달된 데이터를 받게 된다.
이때 상위 계층으로 데이터를 전달하며 각 계층에서
헤더(데이터링크 계층에서는 트레일러)를 제거해 나가는 것을 역캡슐화라고 한다.
역캡슐화를 거쳐 마지막 응용 계층에 도달하면 드디어 전달하고자 했던 원본 데이터만 남게 된다.
TCP/IP 4계층 모델은 OSI 모델을 기반으로 실무적으로 이용할 수 있도록 현실에 맞춰 단순화된 모델이다.
쉽게 말해 OSI 7계층 이론을 실제 사용하는,
즉 실용성에 기반을 둔 현대의 인터넷 표준이 TCP/IP 4계층이라고 할 수 있다.
TCP/IP 4계층 모델은 그림과 같이 응용 계층, 전송 계층, 인터넷 계층, 네트워크 접속 계층으로 이루어져 있다.
각 계층에 대해 자세히 알아보겠다.
응용 계층
앞서 살펴봤듯이 응용 계층은 네트워크 모델의 최상위 계층으로 최종적으로 사용자와의 인터페이스를 제공하는 계층이다.
쉽게 말해 사용자가 웹 서핑을 할 때에는 웹 브라우저를 사용하고,
메일을 주고받을 때는 Outlook과 같은 메일 프로그램을 사용하는 것을 예시로 들 수 있다.
이렇게 응용 계층은 이메일, 파일 전송, 웹 사이트 조회 등 애플리케이션에 대한 서비스를 사용자에게 제공하는 계층이다.
이때 애플리케이션은 서비스를 요청하는 측(사용자 측)에서 사용하는 애플리케이션과
서비스를 제공하는 측의 애플리케이션으로 분류된다.
일반적으로 서비스를 요청하는 측을 클라이언트, 서비스를 제공하는 측을 서버라고 한다.
웹 브라우저(e.g. Google Chrome)나 메일 프로그램(e.g. Outlook)은 사용자 측에서 사용하는 애플리케이션이니 클라이언트에 속하는 반면, 서비스를 제공하는 측인 서버에는 웹 서버 프로그램과 메일 서버 프로그램 등이 있다. 클라이언트와 서버 모두 응용 계층에서 동작한다.
HTTP 역사는 다음과 같다.
HTTP/1.1, HTTP/2는 TCP 기반이며 HTTP/3는 UDP 기반 프로토콜이다.
클라이언트 서버 구조
클라이언트가 서버에 요청을 보내면 서버는 그에 대한 응답을 보내는 클라이언트 서버 구조로 이루어져 있다.
무상태 프로토콜 (stateless)
HTTP에서는 서버가 클라이언트의 상태를 보존하지 않는 무상태 프로토콜이다.
카페에서 아메리카노 2잔을 신용카드로 결제한다고 가정해 보자.
상태가 유지되는 때에는 점원 A가 고객의 주문 상태에 대해 기억하고 있다.
그런데, 만약 중간에 점원 A가 아닌 점원 B가 그대로 고객을 접객한다고 가정해 보자.
이 경우 점원 A만 고객의 주문을 기억하고 있기 때문에 상태 정보를 다른 점원 B에게 미리 알려줘야 한다.
이렇게 점원 A가 고객의 상태를 기억하고 있는 것을 상태를 유지한다고 한다.
무상태에서는 고객이 자신의 주문을 기억하고 있다면 중간에 다른 점원으로 바뀌어도 주문을 할 수 있다.
만약 갑자기 고객이 증가하더라도 무상태에서는 점원을 대거 투입할 수 있다.
상태 유지와 무상태는 다음과 같이 정리할 수 있다.
서버 장애를 예시로 든다면,
만약 서버 1이 장애가 난다면 유지되던 상태 정보가 다 날아가 버리므로 처음부터 다시 서버에 요청해야 한다.
상태 유지가 되어야 하는 프로토콜이라면 클라이언트 A의 요청을
서버 1이 기억하고 있기 때문에 항상 서버 1이 응답해야 하기 때문이다.
그런데 무상태 프로토콜이라면 클라이언트 A가 요청할 때
이미 필요한 데이터를 다 담아서 보내기 때문에 아무 서버나 호출해도 된다.
동시에 무상태는 응답 서버를 쉽게 바꿀 수 있기 때문에 무한한 서버 증설이 가능하다.
무상태 프로토콜 (stateless) 실무 한계
무상태는 다음과 같은 한계를 가지고 있다.
로그인이 필요 없는 단순한 서비스 소개 화면 같은 경우엔 무상태로 설계할 수 있지만,
로그인이 필요한 서비스라면 유저의 상태를 유지해야 되기 때문에
브라우저 쿠키, 서버 세션, 토큰 등을 이용해 상태를 유지해야 한다.
비연결성(Connectionless)
TCP/IP의 경우 기본적으로 연결을 유지한다.
연결을 유지하는 모델에서는 클라이언트 1, 2는 요청을 보내지 않더라도 계속 연결을 유지해야 한다.
이러한 경우 연결을 유지하는 서버의 자원이 계속 소모가 된다.
비연결성을 가지는 HTTP에서는 실제로 요청을 주고받을 때만
연결을 유지하고 응답을 주고 나면 TCP/IP 연결을 끊는다.
이를 통해 최소한의 자원으로 서버 유지를 가능하게 한다.
HTTP 1.0 기준으로, HTTP는 연결을 유지하지 않는 모델이다.
트래픽이 많지 않고, 빠른 응답을 제공할 수 있는 경우, 비연결성의 특징은 효율적으로 작동한다.
예를 들어, 한 시간 동안 수천 명이 서비스를 사용해도, 실제 서버에서는 초당 처리 요청 개수는 수십 개에 불과한다.
하지만 트래픽이 많고, 큰 규모의 서비스를 운영할 때에는 비연결성은 한계를 보인다.
비연결성(Connectionless) 한계와 극복
비연결성은 다음과 같은 한계를 가진다.
웹 브라우저로 사이트를 요청하면 HTML뿐만 아니라
자바스크립트, css, 추가 이미지 등 수많은 자원이 함께 다운로드된다.
해당 자원들을 각각 보낼 때마다 연결 끊고 다시 연결하고를 반복하는 것은 비효율적이기 때문에
지금은 HTTP 지속 연결(Persistent Connections)로 문제를 해결한다.
HTTP 초기에는 각각의 자원을 다운로드하기 위해 연결과 종료를 반복해야 했다.
지금의 HTTP 지속 연결에서는 연결이 이루어지고 난 뒤 각각의 자원들을 요청하고
모든 자원에 대한 응답이 돌아온 후에 연결을 종료한다.
HTTP 메시지는 헤더와 바디로 구분할 수 있다.
HTTP 바디에서는 데이터 메시지 본문(Message body)을 통해서 표현(Representation) 데이터를 전달한다.
여기서 데이터를 실어 나르는 부분을 페이로드(Payload)라 한다.
표현은 요청이나 응답에서 전달할 실제 데이터를 뜻하며 표현 헤더는 표현 데이터를 해석할 수 있는 정보를 제공한다.
HTTP 헤더는 다음과 같은 형식을 따르며, HTTP 전송에 필요한 모든 부가정보를 담기 위해 사용한다.
다음은 표현 데이터의 형식, 압축 방식, 자연 언어, 길이 등을 설명하는 헤더이다.
표현 헤더는 요청, 응답 둘 다 사용한다.
Transfer-Encoding은 전송 시 어떤 인코딩 방법을 사용할 것인가를 명시한다.
그러나 현재는 Transfer-Encoding보다는 Content-Encoding을 사용하며,
Transfer-Encoding을 사용하는 경우 chunked의 방식으로 사용한다.
chunked 방식의 인코딩은 많은 양의 데이터를 분할하여 보내기 때문에
전체 데이터의 크기를 알 수 없기 때문에 표현 데이터의 길이를 명시해야 하는
Content-Length 헤더와 함께 사용할 수 없다.
HTTP 요청/응답 주요 헤더
아래에서는 일반적인 정보를 담고 있는 주요 헤더에 대해서 알아보겠다.
요청(Request)에서 사용되는 헤더
⚙️ From: 유저 에이전트의 이메일 정보
⚙️ Referer: 이전 웹 페이지 주소
⚙️ User-Agent: 유저 에이전트 애플리케이션 정보
⚙️ Host: 요청한 호스트 정보(도메인)
⚙️ Origin: 서버로 POST 요청을 보낼 때, 요청을 시작한 주소를 나타냄
⚙️ Authorization: 인증 토큰(e.g. JWT)을 서버로 보낼 때 사용하는 헤더
응답(Response)에서 사용되는 헤더
⚙️ Server: 요청을 처리하는 ORIGIN 서버의 소프트웨어 정보
⚙️ Date: 메시지가 발생한 날짜와 시간
⚙️ Location: 페이지 리디렉션
⚙️ Allow: 허용 가능한 HTTP 메서드
⚙️ Retry-After: 유저 에이전트가 다음 요청을 하기까지 기다려야 하는 시간
콘텐츠 협상
콘텐츠 협상에서 사용하는 헤더는 다음과 같다.
협상 헤더는 요청 시에만 사용한다.
Accept-Language 헤더를 통해 클라이언트가 원하는 언어를 어떻게 서버에 요청할 수 있는지 알아보자.
한국어 브라우저에서 특정 웹사이트에 접속했을 때 콘텐츠 협상(Accept-Language)이 적용되지 않았다면
서버는 요청으로 받은 우선순위가 없으므로 기본 언어로 설정된 영어로 응답한다.
클라이언트에서 Accept-Language로 KO를 작성해 요청한다면
서버에서는 해당 우선순위 언어를 지원할 수 있기 때문에 한국어로 된 응답을 돌려준다.
조금 더 복잡한 예시를 상상해 보자.
클라이언트는 한국어를 선호하기에 Accept-Language에 한국어를 요청했지만
서버는 한국어를 지원하지 않으며 기본 언어는 독일어로 설정되어 있다.
클라이언트는 독일어는 너무 어렵기 때문에 한국어가 안되면 영어로라도 응답을 받기 원한다.
앞의 경우처럼 지원하는 언어를 요청하는 단순한 경우가 아닌 이처럼 서버에서 지원하는
언어가 여러 개일 때 클라이언트가 최우선으로 선호하는 언어가 지원되지 않는다면 어떻게 해야 할까?
이와 같은 문제를 해결하기 위해 협상 헤더에서는 원하는 콘텐츠에 대한 우선순위를 지정할 수 있다.
1부터 0까지 우선순위를 부여하면 이를 토대로 서버는 응답을 지원한다.
이를 이용해 서버에 우선순위 요청을 하게 되면 1순위인 한국어를 서버에서는 지원하지 않지만,
2순위인 영어를 지원하기에 서버에서는 우선순위에 있는 영어를 독일어보다 선호하기에 영어로 응답을 주게 된다.
지금 내가 접속한 사이트가 보안된 웹 사이트인지 가장 쉽게 확인할 수 있는 방법은 무엇일까?
현재 보고 있는 화면의 주소 바 옆에 있는 자물쇠 아이콘을 눌러보면 된다.
해당 아이콘을 누르면 아래와 같이 “이 사이트는 보안 연결(HTTPS)이 사용되었습니다.”라는 메시지를 볼 수 있다.
HTTPS는 HTTP Secure의 약자로, 단어 뜻 그대로
기존의 HTTP 프로토콜을 더 안전하게(Secure) 사용할 수 있음을 의미한다.
단지 뒤에 S가 붙었을 뿐인데 왜 HTTP보다 안전하다는 걸까?
그 이유는 HTTPS가 HTTP와 달리 요청과 응답으로 오가는 내용을 암호화하기 때문이다.
아래 이미지는 HTTP로 보낸 요청을 'wireshark'라는 패킷 분석 프로그램을 이용하여 캡처한 것이다.
이미지를 확인해 보면, email과 password 같은 값을 그대로 볼 수 있는 것을 알 수 있다.
이는 제3자가 HTTP 요청 및 응답을 탈취한다면 전달되는 데이터의 내용을 그대로 확인할 수 있다는 뜻이기도 하다.
아래는 위 이미지와 동일한 요청을 HTTPS 프로토콜로 보냈을 때를 확인한 것이다.
똑같은 요청임에도 데이터가 암호화되었음을 알 수 있다.
따라서 HTTPS 요청 및 응답은 중간에 제3자에게 데이터가 탈취되더라도 그 내용을 알아볼 수 없다.
이처럼 HTTPS가 HTTP 통신을 암호화하기 위해서 어떤 과정을 거치는지 조금 더 자세히 들여다보기 전에,
암호화 방식에는 어떤 것이 있는지 먼저 간단하게 살펴보도록 하자.
암호화 방식
데이터를 암호화를 할 때에는 암호화할 때 사용할 키, 암호화한 것을 해석(복호화)할 때 사용할 키가 필요하다.
이때 암호화와 복호화할 때 사용하는 키가 동일하다면 대칭 키 암호화 방식,
다르다면 공개 키(비대칭 키) 암호화 방식이라고 한다.
1. 대칭 키 암호화 방식
대칭 키 암호화 방식은 하나의 키만 사용한다. 암호화할 때 사용한 키로만 복호화가 가능하다.
두 개의 키를 사용해야 하는 공개 키 방식에 비해서 연산 속도가 빠르다는 장점이 있다.
하지만 키를 주고받는 과정에서 탈취당했을 경우에는
암호화가 소용없어지기 때문에 키를 관리하는데 신경을 많이 써야 한다.
2. 공개 키(비대칭 키) 암호화 방식
비대칭 키 암호화 방식은 두 개의 키를 사용한다. 암호화할 때 사용한 키와 다른 키로만 복호화가 가능하다.
여기서 두 개의 키를 각각 공개 키, 비밀 키라고 부른다.
여기서 공개 키는 이름 그대로 공개되어 있기 때문에 누구든지 접근 가능하다.
누구든 이 공개 키를 사용해서 암호화한 데이터를 보내면, 비밀 키를 가진 사람만 그 내용을 복호화할 수 있다.
보통 요청을 보내는 사용자가 공개 키를, 요청을 받는 서버가 비밀 키를 가진다.
이때, 비밀 키는 서버가 해킹당하는 게 아닌 이상 탈취되지 않는다.
이러한 공개 키 방식은 공개 키를 사용해 암호화한 데이터가 탈취당한다고 하더라도,
비밀 키가 없다면 복호화할 수 없으므로 대칭 키 방식보다 보안성이 더 좋다.
하지만 대칭 키 방식 보다 더 복잡한 연산이 필요하여 더 많은 시간을 소모한다는 단점이 있다.
SSL/TLS 프로토콜
HTTPS는 HTTP 통신을 하는 소켓 부분에서
SSL 혹은 TLS라는 프로토콜을 사용하여 서버 인증과 데이터 암호화를 진행한다.
여기서 SSL이 표준화되며 바뀐 이름이 TLS이므로 사실상 같은 프로토콜이라고 생각하시면 된다.
SSL/TLS는 다음과 같은 특징을 가진다.
그럼 SSL/TLS 프로토콜이 어떤 과정을 거쳐 서버 인증과 데이터 암호화를 진행하는지 알아보자.
인증서와 CA(Certificate Authority)
HTTPS를 사용하면 브라우저가 서버의 응답과 함께 전달된 인증서를 확인할 수 있다.
이러한 인증서는 서버의 신원을 보증해 준다.
이때 인증서를 발급해 주는 공인된 기관들을 Certificate Authority, CA라고 부른다.
서버는 인증서를 발급받기 위해서 CA로 서버의 정보와 공개 키를 전달한다.
CA는 서버의 공개 키와 정보를 CA의 비밀 키로 암호화하여 인증서를 발급한다.
(이 비밀키가 해커에게 유출되어 파산한 CA도 있다.)
서버는 클라이언트에게 요청을 받으면 CA에게 발급받은 인증서를 보내준다.
이때, 사용자가 사용하는 브라우저는 CA들의 리스트와 공개 키를 내장하고 있다
우선 해당 인증서가 리스트에 있는 CA가 발급한 인증서인지 확인하고,
리스트에 있는 CA라면 해당하는 CA의 공개 키를 사용해서 인증서의 복호화를 시도한다.
CA의 비밀 키로 암호화된 데이터(인증서)는 CA의 공개 키로만 복호화가 가능하므로,
정말로 CA에서 발급한 인증서가 맞다면 복호화가 성공적으로 진행되어야 한다.
대칭 키 전달
이제 사용자는 서버의 인증서를 성공적으로 복호화하여 서버의 공개 키를 확보했다.
그럼 이 공개 키를 사용해서 데이터를 암호화하여 요청과 응답을 주고받게 될까?
안타깝게도, 이 공개 키는 해당 용도로는 사용할 수 없다.
공개 키 암호화 방식은 보안은 확실하지만, 복잡한 연산이 필요하여 더 많은 시간을 소모한다.
따라서 모든 요청에서 공개 키 암호화 방식을 사용하는 것은 효율이 좋지 않다.
그렇다면 이 공개 키는 어디에 쓰는 걸까?
바로 클라이언트와 서버가 함께 사용하게 될 대칭 키를 주고받을 때 쓰게 된다.
대칭 키는 속도는 빠르지만, 오고 가는 과정에서 탈취될 수 있다는 위험성이 있었다.
하지만 클라이언트가 서버로 대칭 키를 보낼 때 서버의 공개 키를 사용해서 암호화하여 보내준다면,
서버의 비밀 키를 가지고 있는 게 아닌 이상 해당 대칭 키를 복호화할 수 없으므로 탈취될 위험성이 줄어든다.
클라이언트는 데이터를 암호화하여 주고받을 때 사용할 대칭 키를 생성한다.
대칭 키를 생성하는 데에는 더 복잡한 과정이 있지만, 일단은 대칭 키를 만든다는 것만 알아두자.
클라이언트는 생성한 대칭 키를 서버의 공개 키로 암호화하여 전달한다.
서버는 전달받은 데이터를 비밀 키로 복호화하여 대칭 키를 확보한다.
이렇게 서버와 클라이언트는 동일한 대칭 키를 갖게 되었다.
이제 HTTPS 요청을 주고받을 때 이 대칭 키를 사용하여 데이터를 암호화하여 전달하게 된다.
대칭 키 자체는 오고 가지 않기 때문에 키가 유출될 위험이 없어졌다.
따라서 요청이 중간에 탈취되어도 제3자가 암호화된 데이터를 복호화할 수 없게 된다.
HTTPS는 이러한 암호화 과정을 통해 HTTP보다 안전하게 요청과 응답을 주고받을 수 있게 해 준다.
정리하자면, 이렇게 서버와 클라이언트 간의 CA를 통해 서버를 인증하는 과정과 데이터를 암호화하는 과정을
아우른 프로토콜을 SSL 또는 TLS이라고 말하고, HTTP에 SSL/TLS 프로토콜을 더한 것을 HTTPS라고 한다.