따라서 Data의 종류 및 용도에 따라 Interal Representation과 External Representation으로 바뀌어 컴퓨터에서 사용된다.
컴퓨터에 저장된 대부분의 Number는 계산을 통해 변경된다.
계산 효율성을 위해 Interal Representation이 사용됨
표현성을 위해 최종 결과를 External Representation으로 변환
정보 처리 과정에서 변경되지 않음
처리 및 표시 가능성에 대한 Interal Representation.
계산에 사용되지 않기 때문에 Interal Representation이 필요하지 않음.
컴퓨터가 data를 처리하는 연산, 컴퓨터가 수행하는 작업을 가르키는 instruction과 비슷하게 사용되는데 opertaion은 주로 숫자 도는 논리 연산을 의미하고 instruction은 자료의 로딩, 복사 등의 컴퓨터가 수행하는 작업들이 기본 단위를 의미하는 경우로 많이 사용.
1개의 operand(or input), 1개의 output
shift, move, not
2개의 operand(or input), 1개의 output
and, or, 사칙연산
학습(어떤 사실을 알게된 경우)의 결과로 인한 놀람의 정도 (degree of surprise)
빈번하게 일어날 것 같지 않은 event (발생확률 p가 매우 작음)가 발생하는 경우 (=발생함을 알게 된 경우), 빈번하게 일어나는 event가 일어나는 경우보다 더 많은 information 을 획득.
항상 발생하는 event가 발생 할 경우, 우리가 얻는 information의 양은 없음
특정 event가 발생할 경우 얻어지는 정보량 h(x)이 해당 event 의 발생확률 p(x)에 의해 결정된다.
어떤 Discrete random variable x에서 해당 x의 값을 알게 되는 경우 얻게되는 정보량을 Shannon이 제안한 방식으로 정량화하면 다음과 같은 수식이 된다.
h(x): 확률변수가 값을 가질 때의 정보량
p(x): 확률변수가 값을 가질 확률.
흔히 log의 base(및)은 2를 사용하며 이 경우 정보량의 단위가 bit이다.
확률변수가 가질 수 있는 값을 다양한 경우의 수를 가지는 경우보다,
0 또는 1 두가지 경우로 한정하는 것이 가장 기본적이라고 볼 수 있다.
ex) 특정 event의 발생 유무).
이는 information을 다루는 컴퓨터가 기본적으로 이진수를 사용하는 것과도 연관된다.
x가 0,1,...,n의 값을 가지는 random-variable(확률 변수) x에 대한 평균 정보량

확률변수가 절대 될 수 없는 값이 있을 경우, 해당 값의 발생확률이 p(x)=0이 되므로 이는 entropy에 영향을 미치지 않는다.
확류변수가 특정 상수로 고정될 경우, p(x)=1이기 때문에 = = 0 그래서 entropy가 0이 됨

Entropy는 random variable의 상태를 전송하는데 필요한 bit 수의 Lower Bound라고 볼 수 있음.
ex) 엔트로피가 3.4 라면 결국 4bit 이상 필요
Discrete random variable(이산 확률 변수)이 가질 수 있는 값들의 발생확률이 모두 같은 경우, 즉 해당 확률변수가 uniform probability distribution(균일 확률 밀도 분포)인 경우 Entropy가 최대.
Gaussian probability distribution(가우시안 확률 분포)을 따르는 Continuous random variable(연속 확률 변수)의 경우, 해당 분포의 Variance(변화량)이 클수록 entropy가 증가함.
가우시안 확률 분포(정규분포)에서 변화량이 무한대일 경우 entropy는 최대.
변화량이 무한대일 경우가 바로 균일 확률 분포인 경우.
