정보 엔트로피

김키핑·2026년 3월 24일

정보 엔트로피란

데이터의 통신, 처리, 추출, 응용을 연구하는 정보이론에서 확률변수의 불확실성(uncertainty)을 정량화하는 척도.

즉, 정보 엔트로피는 데이터가 얼마나 다양하고 복잡하며 예측하기 어려운지를 의미한다.

정보 엔트로피가 높다는 것

픽셀값이 다양하고 복잡한 이미지이다!

예시
1) 노이즈 이미지
2) 랜덤한 픽셀 값
= 색이 들쭉날쭉하고 규칙이 없음

정보 엔트로피가 낮다는 것

픽셀값이 단순하고 반복적인 이미지이다!

예시
1) 단색 이미지 (완전 흰색, 검은색)
2) 반복 문자열 AAAAAA
= 단순한 구조

엔트로피 높다! → 엔트로피 낮다!

데이터 압축과 정보엔트로피

데이터 압축은 원래 표현보다 더 적은 비트를 사용하여 정보를 부호화하는 과정이다.
이때 압축의 목표는 데이터 내의 중복성(Redundancy)을 제거하여, 데이터 크기를 이론적 최소 정보량인 정보 엔트로피(Information Entropy)에 최대한 수렴시키는 것.

즉, 불필요한 데이터를 압축해
저장 공간의 효율적 활용, 전송 속도 향상 및 비용 절감, 그리고 데이터 관리 및 배포의 편의성을 극대화하는 것이다.

이때 모든 압축 방식은 데이터 복원 여부에 따라 무손실(Lossless) 또는 손실(Lossy) 압축으로 나뉜다.

무손실 압축

무손실 압축은 데이터 내 반복 패턴, 출현 빈도, 문구 중복과 같은 통계적 중복성을 제거하거나 짧은 기호 및 위치 정보(인덱스)로 치환하여, 데이터 크기를 이론적 최소 정보량인 엔트로피에 수렴시키는 과정

즉, 데이터의 내용을 단 1비트도 손실하지 않고 크기만 줄이는 방식이며(그러나 엔트로피 이하로는 압축이 불가능하다)
압축을 복원하면 원래의 원본 데이터와 100% 일치한다.

예시
1. PNG
2. ZIP
3. GIF

무손실 압축에서의 치환

원본 값을 유지하면서 데이터를 더 짧은 코드로 표현하는 방식이다.

예시
A → 1
B → 01
C → 001

하프만 코딩 같은 방식을 사용하여 자주 등장하는 데이터일수록 더 짧게 표현해 복원 시 원본과 완전히 동일

무손실 압축에서의 반복 제거 (패턴 압축)

반복되는 데이터를 값과 횟수로 표현하여 압축한다.

예시
AAAAAA → A6
00000000 → (0, 8)

원본 데이터는 그대로 유지되며 표현만 변경됨

무손실 압축에서의 참조 방식 (사전 기반)

이미 등장한 데이터를 다시 저장하지 않고 위치를 참조한다. 당연히 원본 데이터는 그대로 유지 되며
이후 반복 문자열을 재사용하여 압축한다 (=zip)

예시
ABABABAB
→ [AB][AB][AB][AB]
→ [1][1][1][1]

손실압축

인위적으로 일부 정보를 제거하여 데이터의 복잡도(엔트로피)를 낮추는 과정.

데이터의 일부를 영구적으로 삭제하여 파일 크기를 획기적으로 줄인다.
압축을 풀었을 때 원본과 유사해 보이지만, 실제 데이터는 이미 변형된 상태이다.

예시
1. JPEG 
2. MP3 
3. MP4

손실 압축에서의 제거

사람이 인지하기 어려운 정보(덜 중요한 데이터)를 제거한다.

예시
1) 이미지 색상 단순화
   256색 → 64색으로 감소

2) JPEG에서 고주파(디테일) 제거
   → 머리카락, 잔디 등의 세밀한 부분 일부 삭제

손실 압축에서의 치환

원본 데이터를 유사한 값(근사값)으로 변환한다.

예시
1) 픽셀 값 평균화
   [101, 102, 103] → [102, 102, 102]

2) 색상 근사화
   RGB(123, 201, 98)
   → RGB(120, 200, 100)

3) 오디오 압축 (MP3)
   → 사람이 잘 듣지 못하는 주파수 제거 후 재구성

씨스터디 결론

Q. 1000x1000 해상도의 JPEG 파일이 두 장 있습니다. 하나는 '파란 하늘'이고, 다른 하나는 '나뭇잎' 사진입니다. 이 두 파일의 용량을 논리적으로 추론하고, 같은 해상도임에도 용량 차이가 발생하는 이유를 설명하세요.

A. Jpeg 파일은 압축될 때 원본값이 제거되거나 삭제되는 손실압축방식을 채택합니다.

손실압축 방식은 중요하지 않은 데이터는 삭제하거나 근사값으로 치환하여 데이터의 복잡도를 낮추는데,

파란 하늘 사진은 픽셀값의 변화가 적고 중복값이 많은 데이터이지만
나뭇잎 사진은 픽셀값의 변화가 크고 중복값이 적은 데이터이기에

파란하늘의 압축 효율이 높아 나뭇잎 이미지보다 파일 용량이 더 작아질 가능성이 큽니다!!

찡긋 😉

김키핑

양치기소녀

이전 포스트

제발 대방어를 사게 해주세요

다음 포스트