엔트로피 부호화(Entropy Encoding):
데이터의 통계적 특성을 기반으로 데이터를 효율적으로 압축하는 무손실 압축 방식.
정보 이론에서 엔트로피란 메시지에 포함된 불확실성 또는 정보량을 의미한다.
엔트로피 부호화는 데이터에서 중복성을 제거하여 최소한의 비트로 데이터를 표현한다.
2. 등장배경 & 목적
등장배경:
데이터 크기를 줄여 저장 및 전송 효율성을 높이기 위한 요구에서 등장.
클라우드, 스트리밍, 파일 저장 등 대용량 데이터를 효과적으로 다루기 위해 필요.
목적:
데이터 압축을 통해 저장 공간 절약.
전송 시 대역폭 사용 최소화.
데이터의 원래 정보 손실 없이 크기를 줄임.
3. 역할
데이터 압축:
원본 데이터를 효율적으로 표현하여 저장 공간과 전송 비용 절감.
통계적 효율성 증대:
데이터 발생 확률에 따라 부호 길이를 최적화하여 중복을 제거.
파일 형식 기반 기술 지원:
JPEG, MPEG, ZIP, MP3 등 다양한 압축 알고리즘의 기반.
4. 활용 계층 또는 범위
멀티미디어 파일 압축:
이미지: JPEG, PNG.
오디오: MP3, AAC.
동영상: MPEG, H.264.
네트워크 전송:
데이터 크기를 줄여 전송 속도를 높이고 비용 절감.
파일 압축 도구:
ZIP, RAR, 7z 등 압축 알고리즘에서 사용.
5. 구성요소
확률 분포 계산:
데이터에서 각 기호의 발생 빈도를 측정하여 확률 분포를 생성.
부호 매핑:
낮은 확률의 기호에 긴 부호를, 높은 확률의 기호에 짧은 부호를 매핑.
압축 출력:
매핑된 부호를 조합하여 최종 압축 데이터를 생성.
6. 시간순 작동 순서
데이터 분석: 데이터 내 기호(문자, 숫자 등)의 발생 빈도를 측정.
확률 계산: 기호의 확률 분포를 생성.
부호 생성:
낮은 엔트로피(높은 확률) 기호에 짧은 부호를 할당.
높은 엔트로피(낮은 확률) 기호에 긴 부호를 할당.
압축 저장/전송: 생성된 부호로 데이터를 압축하여 저장하거나 전송.
복원(Decoding): 부호를 해석하여 원본 데이터를 복구.
7. 종류
허프만 부호화(Huffman Encoding):
발생 빈도에 따라 기호를 이진 트리 구조로 표현.
최적화된 이진 부호를 생성.
산술 부호화(Arithmetic Encoding):
전체 메시지를 하나의 부동소수점 수로 표현.
허프만 부호화보다 더 높은 압축률 가능.
행렬 부호화(Run-Length Encoding, RLE):
반복되는 데이터를 압축하여 부호화.
예: "AAAA"를 "4A"로 표현.
8. 장단점
장점
무손실 압축:
원본 데이터 손실 없이 복원 가능.
효율성:
확률 분포를 기반으로 최적화된 부호 생성.
응용성:
다양한 데이터 형식에 적용 가능.
단점
계산 복잡성:
확률 계산 및 부호화 과정에서 높은 연산량.
실시간 처리 한계:
특정 알고리즘(산술 부호화 등)은 실시간 처리에 부적합할 수 있음.
9. 전망 & 개선점
전망:
고해상도 데이터(4K, 8K) 및 IoT 데이터의 증가로 엔트로피 부호화 기술의 중요성 증가.