# entropy

16개의 포스트
post-thumbnail

엔트로피와 크로스엔트로피 KL-Divergence

Entropy 엔트로피는 불확실성의 정도이다. 즉, 확률과 연관된 개념으로써 엔트로피가 높다는 것은 미래의 사건이 뭐가 나올지 불확실한정도가 크다는 것이고 낮다는 것은 미래의 사건이 뭐가 나올지 비교적 확실하다는 것이다. 엔트로피는 확률분포와 연관해서 기억하면 좋을 것이다. 위의 두 확률분포에 대해서 우리는 빨간색 점의 사건이 일어날 확률은 비교적 높은 것을 알 수 있다. 그렇다면 우리가 당신에게 정규분포에 해당하는 사건들 중에서 어떤 사건이 일어나는데 5만원을 걸래? 라고 한다면 당신은 빨간색점의 사건이 일어나는데 돈을 걸겠다고 할 것이다. 왜냐? 좀 더 일어날 확률이 높으니까 자 그렇다면 반대로 노란색 점의 사건이 있는 확률분포를 확인해보자. 우리는 당신에게 똑같이 파란색 분포(Unif

2023년 8월 31일
·
0개의 댓글
·

Day 29

Decision Tree root node에서 선택되는 feature가 뭔지에 따라 깊이가 달라짐(tree 길이). 어떤 피쳐를 가장 먼저 쓰느냐가 depth를 결정하는 큰 요소. 가장 중요한것: root node에서 어떤 descriptive feature 사용하느냐. Entropy: 불확실성을 판단하는 척도 엔트로피가 클수록 불확실성이 높은것. *정보량이 크다: 일어나는 빈도수가 작은 정보 of surprise?? I(x) = log21/p(x) = -log2p(x) Impurity Metrics impurity

2023년 6월 19일
·
0개의 댓글
·
post-thumbnail

머신러닝 - Titanic data

https://www.kaggle.com/competitions/titanic 라이브러리 로드 데이터셋 로드 label 값 빈도수 결측치 학습과 예측 전체 과정 정답값이자 예측할 값 학습, 예측 컬럼 학습, 예측 데이터셋 만들기 ![](https://velog.velcdn.com/images/psy

2022년 11월 3일
·
0개의 댓글
·
post-thumbnail

[ML] entropy, cross entropy, kl-divergence

Entropy $$ E = H(p)= -\Sigmaipi*log(p_i) $$ : 정보를 표현하는 데 필요한 최소 평균 자원량 흔하게 일어나는 일일수록 정보량이 적고, 적게 일어나는 일일수록 정보량이 많다는 아이디어로 출발하여 아래 그림과 같이 정보량 표현 → entropy : 불확실성 척도 → 불확실하다 = 어떤 데이터가 나올 확률이 적다 = entropy가 높다 Cross-Entropy $$ CE = H(p,q) = -\Sigmaipi*log(q_i) $$ : 특정 정보를 표현한 글자수의 기댓값 (현실값) : 실제값과 예측 값의 차이를 줄이기 위한 entropy 실제분포 p, 예측을 통해 구한 분포 q 엔트로피는 이상값, 크로스 엔트로피는 현실값으로 볼 수

2022년 10월 14일
·
0개의 댓글
·
post-thumbnail

(논문 요약) Approximate Entropy and Sample Entropy: A Comprehensive Tutorial by Alfonso Delgado-Bonal and Alexander Marshak (1)

본 글은 위키백과 https://en.wikipedia.org/wiki/Conditional_entropy 에서 motivation 그리고 property 부분과 논문 Shannon, C. E. (1948). A mathematical theory of communication. The Bell system technical journal, 27(3), 379-423.ISO 690 및 Delgado-Bonal, A., & Marshak, A. (2019). Approximate entropy and sample entropy: A comprehensive tutorial. Entropy, 21(6), 541. 를 참고하였음을 밝혀드립니다. 문제 제기 이 논문에서는 어떠한 데이터의 series가 주어졌을 때, 이 데이터가 얼마나 random한지에 대한 측량 방식을 소개합니다. 사실 Shannon(1948)에 의해 처음으로 정보의 측량 단위가 엔트로피 위

2022년 8월 16일
·
0개의 댓글
·
post-thumbnail

Cross entropy

Classification Task에서 빼놓을 수 없는 것 중 하나는 바로 Cross entropy cost function입니다. 이것이 왜 분류 문제에서 중요한지, 어떤 역할을 하는지 서술해주세요. cross entropy를 이해하기에 앞서 entropy란 무엇인지 이해하는게 좋습니다. entropy는 불확실성을 나타내며, entropy가 높다는 것은 정보가 많고, 확률이 낮다는 것을 의미합니다. (모든 사건이 같은 확률로 일어나는 것이 가장 불확실합니다) cross entropy는 불확실성의 확률분포의 오차범위를 구하고 이를 줄이기 위해 사용됩니다. 분류 문제는 categorycal 합니다. 예를 들어 주머니에서 4가지의 색깔이 있는 공이 있고 이를 뽑는다고 가정했을때, yi값(target)이 [0.5, 0.125, 0.125, 0.25]이고, 학습한 활률(예측값)인 y^i값이 [0.25, 0.25, 0.25, 0.25]입니다. 위의 리스트로 보여지는 값이 en

2022년 8월 7일
·
0개의 댓글
·
post-thumbnail

의사 결정 트리 (DECISION TREE)

의사 결정 트리 무언가를 결정할 수 있는 기준들을 학습하는 모델 이미지 출처:https://tensorflow.blog 🌲 좋은 트리의 기준 DECISION TREE에서 마지막 노드인 leaf node에서 동일한 레이블의 데이터만 있을 때, 분류 정확도가 높다고 할 수 있다. 트리의 깊이가 짧으면 모델의 학습 속도가 빠르다고 할

2022년 6월 27일
·
0개의 댓글
·
post-thumbnail

엔트로피(Entropy)?

엔트로피(Entropy) 분류과정의 손실함수를 설명하기 위해선 엔트로피에 대한 설명이 먼저 필요합니다. 물리학과 정보학에서 사용하는 엔트로피는 유래가 같지만 사용 목적에 따라 의미가 갈린다고 생각합니다. 전자에서는 자연상태를 설명하기 위한 수단이라면, 후자에서는 자원을 배분하기 위해 고안한 개념에 가깝습니다. 엔트로피는 본래 물리학의 열역학에서 이용되는 함수 이름입니다. "무질서도" 혹은 "불확실성"이라는 말로 번역되기도 하는데, 어떤 공간 안에서 에너지가 골고루 퍼져나가려는 상태를 말합니다. 아무리 질서정연하게 모아놓고 정리하려 해도 분산되려는 성질을 의미하는거죠. 사전적 의미 정보학에서의 엔트로피는 정보를 표현하는데 필요한 가장 작은 평균 자원량을 의미합니다.출처 친구와

2022년 6월 1일
·
0개의 댓글
·

[Aiffel] 아이펠 37일차 개념 정리 및 회고

1. 정보이론 톺아보기 > 정보이론이란? '정보'라는 추상적인 개념을 정량화하며, 정보의 저장과 통신을 연구하는 분야 1) Information Content (Goodfellow, Bengio, Courville)에서 말하는 정보의 정량성 어떤 사건이 일어날 가능성이 높을 경우 정보량은 낮음 반드시 일어나는 사건은 정보량이 없는 것과 같음 일어날 가능성이 낮은 사건은 정보량이 높음 두 가지 독립된 사건이 있을 때, 전체 정보량은 각각의 정보량을 더한 것과 같음 information content(정보량)과 사건 x가 일어날 확률 $P(X=x)$의 관계 $$$ I(x) = −log_{b}P(x) $$$ $P(x)$와 $-logP(x)$의 관계 ![](https://images.velog.io/images/gongsam/post/3742ec3b-4d97-435a-9fb1-8a6f6dacd2c4/i

2022년 2월 18일
·
0개의 댓글
·
post-thumbnail

Entropy 이야기

요즘 딥러닝을 공부하는데 많은 논문에서 Entropy, Cross Entropy, KL Divergence ... 등이 언급된다. 그래서 이번기회에 확실히 공부해보고자 이 글을 작성한다. 학교 강의인 기계학습의 김휘용 교수님 말씀을 참고하였습니다. 정보(Information) 먼저 정보에 대해 언급하고자 한다. > '겨울에 눈이 온다' 와 '여름에 눈이 온다' 두개의 글 중 어떤 것이 정보량이 큰가? 후자의 정보가 정보량이 크다. '겨울에 눈이 온다' 라는 내용은 당연히 알지만, '여름에 눈이 온다' 라는 내용은 매우 불확실한 정보이다. 그렇기 때문에 후자가 정보량이 크다고 하는 것이다. 즉, Uncertainty(불확실성)가 큰 정보가 정보량이 높은 것이다. 정보량은 사건 $x_i$ 에 대해 > $-log2p(xi)$ 와 같이 계산한다. 비트량으로 나타내기 위하여 log 밑을 2로 사용한다. 예를 들어, '겨울에 눈이 온다' 라는 확률이 ${

2022년 2월 9일
·
0개의 댓글
·

Entropy

Prologue 열역학에서 많이 쓰이지만 Claude Shannon의 정보이론에서는 정보량을 효율적으로 계량하는데 쓰인다. 결론부터 말하면 entropy는 자주 등장하지 않는 정보일수록, 그러니까 일어날 확률이 낮은 사건일수록 커진다. Amount of Information 두 가지 예를 들어보자. 개가 사람을 물 확률: $99\%$ 사람이 개를 물 확률: $1\%$ 두 사건이 일어날 때마다 어디론가 정보를 보내야 할 때 같은 정보량으로 보내보자. 이를테면 0.1 같은 작은 수로 정하고 사건이 100번이 일어났다고 했을 때 총 정보량은 $10$이다.$(9.9 + 0.1)$ 여기에서 정보량을 좀더 줄일 수 있는 방법이 있나? 하고 생각해보면 사건이 일어날 확률을 그냥 뒤집어서 사용하는 거다. 개가 사람을 물 확률의 정보량: $\frac{1}{99}$ 사람이 개를 물 확률의 정보량: $1$ 이렇게 100번이 일어났다고 했을 때 총 정보량은 $2$로

2021년 12월 26일
·
0개의 댓글
·
post-thumbnail

[MachineLearning](python/scikit-learn) Decission Tree 결정트리

🧩 Decission Tree(결정트리) 📌 결정트리 결정트리란 뿌리노드(가지가 시작되는 처음 = Root Node)부터 시작해서, Yes or No로 가지를 마침내 리프노드(가지의 마지막 = Leaf Node)까지 뻗어나가는 의사 결정 과정을 뜻한다. 스무고개처럼 계속해서 질문을 하며 정답을 도출해나가는 과정이다. 많은 질문을 통하여도 정답으로 갈 수 있지만, 어쨌든 알고 싶은 것은 정답이고 정답은 빨리 알아낼 수록 좋은 것! ![](https://images.velog.io/images/richeberry/post/c8026525-d384-4683-92d0-546b9ae4c7b3/Scree

2021년 10월 26일
·
0개의 댓글
·

엔트로피

1 엔트로피 $Y=0$ 또는 $Y=1$ 인 두 가지 값을 가지는 확률변수의 확률분포가 다음과 같이 세 종류가 있다고 하자. 확률분포 $Y_1$ : $P(Y=0)=0.5$, $P(Y=1)=0.5$ 확률분포 $Y_2$ : $P(Y=0)=0.8$, $P(Y=1)=0.2$ 확률분포 $Y_3$ : $P(Y=0)=1.0$, $P(Y=1)=0.0$ 베이지안 관점에서 위 확률분포는 다음과 같은 정보를 나타낸다. 확률분포 $Y_1$은 $y$값에 대해 아무것도 모르는 상태 확률분포 $Y_2$은 $y$값이 0이라고 믿지만 아닐 가능성도 있다는 것을 아는 상태 확률분포 $Y_3$은 $y$값이 0이라고 100% 확신하는 상태 > 확률분포가 가지는 이러한 차이를 하나의 숫자로 나타낸 것이 바로 엔트로피다. 엔트로피의 정의 엔트로피(entropy)는 확률분포가 가지는 정보의 확신도 혹은 정보량을 수치로 표현한 것이다. 확률밀도가 특정값에

2021년 9월 27일
·
0개의 댓글
·
post-thumbnail

[지도학습] CNN

Entropy $$ H(p)=-\displaystyle\sum{i=0}^n p(xi)\log2 p(xi)$$ 높은 확률로 일어나는 사건은 별로 놀랍지 않습니다. 예를 들어 해가 동쪽에서 뜰 확률은 거의 100% 이기 때문에 이런 확률은 정보의 양이 적습니다. 그래서 얼마나 놀라운지(불확실한지)를 수치적으로 표현할 수 있는 것이 엔트로피 함수 입니다. 엔트로피 식에서 $p(x)$가 작아질 수록$-\log p(x)$는 커지기 때문에 확률이 커질수록 얻는 정보의 양은 줄어든다고 해석할 수 있습니다. Cross-Entropy $$

2021년 6월 10일
·
0개의 댓글
·
post-thumbnail

[강화학습] REINFORCE (PG)

우리가 실제로 문제를 해결하는데 있어서는, 정확한 행동에 대한 가치 자체의 값보다는 어떤 정책에 따라서 어떤 행동을 선택해야 하는지가 더 중요합니다. 하지만 우리가 지금까지 Q-learning에 기초한 이론을 통하여 잘 학습해왔는데, 굳이 이제와서 정책을 사용할 필요가 있을까요? 지금까지 저희가 학습한 환경들은 모두 이산 행동 또는 10개가 넘지 않는 작은 action space를 가지는 환경입니다. 만약 수 많은 행동이 있거나 극단적으로 연속적인 행동 공간(스티어링 휠의 각도, 바퀴의 속도 등)을 가진다면 비선형 신경망으로 표현되는 $Q(s,a)$를 기반으로 연속된 행동 중 최선의 행동을 찾는 것은 쉽지 않습니다. 가장 대표적인 정책 기반 학습법인 정책 그라디언트(policy gradient)를 통한 강화학습을 알아보겠습니다. Policy gradient는 목표함수($J$)를 최대화 하는 것이 목표입니다. $$ J=Q(s,a) \log{\pi(a|s)}$$ 신경망을

2021년 5월 11일
·
0개의 댓글
·
post-thumbnail

(2-5) 표본분포 / 추정, 검정, 교차엔트로피

표본분포 우선 표본 조사의 필요성과 표본 추출 방법에 대해서 배워보자. 통계적 추론 표본조사를 통해 모집단에 대한 해석을 진행 전수조사는 실질적으로 불가능한 경우가 많음 표본조사는 반드시 오차가 발생! 따라서 적절한 표본 추출 방법 필요 👉표본과 모집단과의 관게를 이해해야 함! 📌표본 추출 방법 단순랜덤추출법(random sampling) 난수표 사용 랜덤 넘버 생성기 사용 표본분포 > 표본 평균의 분포 모수 (parameter) : 표본조사를 통해 파악하고자 하는 정보 모수의 종류 모평균, 모분산, 모비율 등 모수를 추정하기 위해 표본을 선택하여 표본 평균이나 표본 분산 등을 계산 통계량 (statistic) : 표본 평균이나 표본 분산과 같은 표본의 특성값 예시) 50만명의 전국 고등학교 1학년 학생의 키를 조사하기 위해 1000명을

2020년 12월 11일
·
0개의 댓글
·