Data and information

aisle333·2024년 4월 18일

컴퓨터

컴퓨터 공학

목록 보기

4/19

Difference between Data and Information

Data

어떤 처리가 이루어지지 않은 상태의 character(문자)나 number(수치), image(그림) 등으로 단순히 측정하고 수집된 것 을 의미함.
어떤 의미나 목적을 포함하지 않고 수집 측정된 raw data를 의미. 주로 컴퓨터에 입력되는 데이터를 의미.
단순한 사실의 나열이라고 생각하면 됨.

Information

어떠한 목적이나 의도에 맞게 data를 가공 처리한 것.
어떤 목적에 의해 유용하게 사용할 수 있는 것.

Computer에서의 Data

컴퓨터에서 다루는 데이터

Numerical data
Numberreal number, natural number, integer, ...)
Non-numerical data
Letter (or charactor), Symbol
Data structure (자료구조)
Linear Lists,Trees,Rings,etc
Program (Instruction set)

Data Representatation

주로 내부에서 사용되는 표현은 계산을 위한 경우로 이진수를 기반으로 하는 numerical data 중심
외부와의 Information exchange(정보 교환)을 위해 사용되는 표현은 code 등을 기반으로 하는 non-numerical data 중심

따라서 Data의 종류 및 용도에 따라 Interal Representation과 External Representation으로 바뀌어 컴퓨터에서 사용된다.

Number(for computing)

컴퓨터에 저장된 대부분의 Number는 계산을 통해 변경된다.

계산 효율성을 위해 Interal Representation이 사용됨
표현성을 위해 최종 결과를 External Representation으로 변환

Alphabets, Symbols and Some Numbers

정보 처리 과정에서 변경되지 않음

처리 및 표시 가능성에 대한 Interal Representation.
계산에 사용되지 않기 때문에 Interal Representation이 필요하지 않음.

Operations

컴퓨터가 data를 처리하는 연산, 컴퓨터가 수행하는 작업을 가르키는 instruction과 비슷하게 사용되는데 opertaion은 주로 숫자 도는 논리 연산을 의미하고 instruction은 자료의 로딩, 복사 등의 컴퓨터가 수행하는 작업들이 기본 단위를 의미하는 경우로 많이 사용.

Operation의 구분은 operand(피연산자)에 따른구분

Unary

1개의 operand(or input), 1개의 output
shift, move, not

Binary

2개의 operand(or input), 1개의 output
and, or, 사칙연산

operand의 type에 따른 구분(true or false)

Numearical Operator

Logic Operator

Information

학습(어떤 사실을 알게된 경우)의 결과로 인한 놀람의 정도 (degree of surprise)

빈번하게 일어날 것 같지 않은 event (발생확률 p가 매우 작음)가 발생하는 경우 (=발생함을 알게 된 경우), 빈번하게 일어나는 event가 일어나는 경우보다 더 많은 information 을 획득.
항상 발생하는 event가 발생 할 경우, 우리가 얻는 information의 양은 없음
특정 event가 발생할 경우 얻어지는 정보량 h(x)이 해당 event 의 발생확률 p(x)에 의해 결정된다.

정보량 : bit

어떤 Discrete random variable x에서 해당 x의 값을 알게 되는 경우 얻게되는 정보량을 Shannon이 제안한 방식으로 정량화하면 다음과 같은 수식이 된다.

h(x): 확률변수가 값을 가질 때의 정보량
p(x): 확률변수가 값을 가질 확률.
흔히 log의 base(및)은 2를 사용하며 이 경우 정보량의 단위가 bit이다.

확률변수가 가질 수 있는 값을 다양한 경우의 수를 가지는 경우보다,
0 또는 1 두가지 경우로 한정하는 것이 가장 기본적이라고 볼 수 있다.
ex) 특정 event의 발생 유무).

이는 information을 다루는 컴퓨터가 기본적으로 이진수를 사용하는 것과도 연관된다.

Entropy : 평균 정보량

x가 0,1,...,n의 값을 가지는 random-variable(확률 변수) x에 대한 평균 정보량

discrete random variable(이산 확률 변수)

확률변수가 절대 될 수 없는 값이 있을 경우, 해당 값의 발생확률이 p(x)=0이 되므로 이는 entropy에 영향을 미치지 않는다.

확류변수가 특정 상수로 고정될 경우, p(x)=1이기 때문에 $\log_{2}{p(x)}$ = $\log_{2}{1}$ = 0 그래서 entropy가 0이 됨

continuous random variable(연속 확률 변수)

Entropy는 random variable의 상태를 전송하는데 필요한 bit 수의 Lower Bound라고 볼 수 있음.
ex) 엔트로피가 3.4 라면 결국 4bit 이상 필요

Entropy가 극대화 되는 경우

Discrete random variable(이산 확률 변수)이 가질 수 있는 값들의 발생확률이 모두 같은 경우, 즉 해당 확률변수가 uniform probability distribution(균일 확률 밀도 분포)인 경우 Entropy가 최대.
Gaussian probability distribution(가우시안 확률 분포)을 따르는 Continuous random variable(연속 확률 변수)의 경우, 해당 분포의 Variance(변화량)이 클수록 entropy가 증가함.

가우시안 확률 분포(정규분포)에서 변화량이 무한대일 경우 entropy는 최대.

변화량이 무한대일 경우가 바로 균일 확률 분포인 경우.

aisle333

이전 포스트

Bit (Binary Digit)

다음 포스트

Data and information

컴퓨터 공학

Difference between Data and Information

Data

Information

Computer에서의 Data

컴퓨터에서 다루는 데이터

Data Representatation

Number(for computing)

Alphabets, Symbols and Some Numbers

Operations

Operation의 구분은 operand(피연산자)에 따른구분

Unary

Binary

operand의 type에 따른 구분(true or false)

Numearical Operator

Logic Operator

Information

정보량 : bit

Entropy : 평균 정보량

discrete random variable(이산 확률 변수)

continuous random variable(연속 확률 변수)

Entropy가 극대화 되는 경우

Bit (Binary Digit)

Boolean Algebra(부울 대수) and Logic gate(논리 게이트)

0개의 댓글