[CS] 데이터 단위

Smite·2023년 7월 30일

CS

목록 보기

4/12

컴퓨터는 디지털 형식의 전기 신호를 사용하기에 컴퓨터는 모든 데이터를 비트 형태로 처리하고 저장한다. 비트(binary digits, Bit)는 이진(binary) 숫자 체계를 기반으로 하며, 0과 1로 표현된다. 0과 1로 표현하는 비트는 이를 False와 True 또는 OFF/ON 으로도 사용할 수 있다.

비트를 활용하여 디지털 회로에 사용되는 논리 게이트(NOT, OR, AND, ...)는 컴퓨터의 모든 연산과 제어 동작에 사용되는 기본적인 요소이다. 컴퓨터는 논리 게이트를 사용하여 숫자와 데이터를 처리하고, 프로그램의 흐름을 제어하며, 복잡한 논리 연산을 수행한다. 이러한 여러 논리 게이트들의 조합으로 컴퓨터의 동작이 이루어지며 모든 연산과 동작에 기반이 되는 중요한 역할을 수행한다.

컴퓨터가 처리하는 최소 정보 단위인 비트는, 한 개만으로는 많은 양의 데이터를 나타내기에 턱없이 부족하기, 정보를 표현하는 기본 단위는 8개의 비트를 묶은 바이트(Byte)로 삼고있다.

데이터 단위

단위	기호	이진 변환	표준 SI	참고
1 비트	Bit	$2^{1}$	-	0, 1
1 바이트	Byte	$2^{8}$	-	1Byte = 8 bit
1 킬로바이트	KB	$2^{10}$	$10^{3}$	1KB = 1,024 Byte
1 메가바이트	MB	$2^{20}$	$10^{6}$	1MB = 1,024 KB
1 기가바이트	GB	$2^{30}$	$10^{9}$	1GB = 1,024 MB
1 테라바이트	TB	$2^{40}$	$10^{12}$	1TB = 1,024 GB
1 페타바이트	PB	$2^{50}$	$10^{15}$	1PB = 1,024 TB
1 엑사바이트	EB	$2^{60}$	$10^{18}$	1EB = 1,024 PB
1 제타바이트	ZB	$2^{70}$	$10^{21}$	1ZB = 1,024 EB
1 요타바이트	YB	$2^{80}$	$10^{24}$	1YB = 1,024 ZB

비트 (Bit)

가장 작은 데이터 단위로서 0 또는 1의 이진 값으로 표현되는 정보의 단위이다.
컴퓨터의 가장 기본적인 데이터 단위로서 비트로 표현된 정보는 논리 연산이나 이진 숫자 등으로 사용된다.

바이트 (Byte)

8개의 비트로 구성된 데이터 단위이자, 정보를 표현하는 기본 단위 이다.
일반적으로 ASCII(영어 대소문자 알파벳, 숫자, 일부 특수 문자 등)문자 하나를 나타내는데 사용된다.

한글과 같은 동양권 문자를 표기하기 위해서는 한 문자당 2바이트 이상 필요하다.
예를 들어, "A"라는 ASCII 문자는 1바이트로 표현되지만, "가"라는 한글 문자는 UTF-8 인코딩에서는 3바이트, UTF-16 인코딩에서는 2바이트로 표현된다.

킬로바이트 (KB)

$2^{10}$ (1,024) 바이트로 구성된 데이터 단위이다.

메가바이트 (MB)

$2^{20}$ (1,048,576) 바이트로 구성된 데이터 단위이다.

기가바이트 (GB)

$2^{30}$ (1,073,741,824) 바이트로 구성된 데이터 단위이다.

테라바이트 (TB)

$2^{40}$ (1,099,511,627,776) 바이트로 구성된 데이터 단위이다.

페타바이트 (PB)

$2^{50}$ (1,125,899,906,842,624) 바이트로 구성된 데이터 단위이다.
이 내용[1]에 의하면 한 달 동안 유튜브(YouTube)에 저장되는 데이터 단위이다.

엑사바이트 (EB)

$2^{60}$ (1,152,921,504,606,846,976) 바이트로 구성된 데이터 단위이다.
기사[2] 내용에 의하면 구글에서 보유하고 있는 데이터의 총량은 10~15EB로 예측하고 있다.

제타바이트 (ZB)

$2^{70}$ (1,180,591,620,717,411,303,424) 바이트로 구성된 데이터 단위이다.
미국의 리서치 기업 IDC(International Data Corporation, IDC)에 의하면 2018년을 기준으로 인류가 지금까지 생산해 낸 모든 데이터의 총합이 33ZB를 넘겼다고 한다.

요타바이트 (YB)

$2^{80}$ (1,208,925,819,614,629,174,706,176) 바이트로 구성된 데이터 단위이다.
현재까지는 실제로 사용되지는 않지만, 빅데이터, 인공지능과 같은 기술의 발전과 데이터의 증가로 인해 머지않아 미래에 일상적인 용어로 사용될 수 있다.

번외

실제 용량과 저장 장치의 표기 용량과 실제 용량이 다른 이유는 두 가지 이유로 설명된다.

이진법 표기와 십진법 표기의 차이
컴퓨터의 저장 장치는 2진 산술을 기반으로 동작하지만, 저장 장치 제조업체에서는 용량을 일반적으로 10진 산술로 표기한다. 즉, 이진 산술 컴퓨터에서는 1KB가 1024Byte로 표현되지만, 10진 산술을 표기하는 제조업체에서는 1KB가 1000Byte로 표현하기에 저장 장치 표기 용량과 실제 용량이 다르게 차이 난다.
예를 들어, 제조업체의 1TB는 1,000,000,000,000바이트를 저장할 수 있지만 컴퓨터에서는 이를 1TB가 아닌 약 931.3GB로 인식한다.
파일 시스템과 운영 체제의 사용
저장 장치에는 파일 시스템이 사용되고, 운영 체제와 파일 시스템은 일부 공간을 예약하여 파일 관리 등의 용도로 사용한다. 이러한 예약된 공간은 사용자가 직접 사용할 수 없으며, 따라서 실제 사용 가능한 용량이 표기 용량보다 작아질 수 있다.

📖CS Index

참고 자료
[1] : What is the total capacity of YouTube storage?
(Quora)
[2] : Will Google Ever Run Out of Storage Space?
(TOMISIN OLUJINMI, MUO, 2023.01.19.)

Smite

이전 포스트

[CS]절자지향 언어 | 객체지향 언어

다음 포스트

[CS-컴퓨터 구조] 컴퓨터 구성 요소

2개의 댓글

happy

2023년 7월 30일

이런 유용한 정보를 나눠주셔서 감사합니다.

1개의 답글