DL : Entropy, Cross Entropy

위의 정의대로 한 사건에 대한 정보량은 (사건이 일어날 확률 * log(가능한 결과의 수) )를 의미한다.

초보를 위한 정보이론 안내서 - Entropy란 무엇일까

딥러닝을 공부하다 보면 KL-divergence, cross-entropy 등에서 entropy라는 용어를 자주 접하게 됩니다. 이번 글을 통해서 정보이론의 아버지라 불리는 Shannon이 주창한 기초 개념인 entropy를 정리해봅니다.

hyunw.kim

아래 증명은 위에 블로그에 나와있다. 질문의 개수를 이용하는데 참고하자.

위의 정보량을 빌려쓰면, 해당 한 사건이 일어나게될 정보량을 우리는 흔히 entropy라고 한다.

사건 발생확률을 역수를 취하면, 가능한 결과의 수와 같은 의미이기 때문에 우리가 정의한 정보량과 같은 의미이다.

따라서 Entropy 값이 크다면 그만큼 무질서하다는 의미이며, 위와 같은 그래프처럼 다양한 정보량을 가지고 있다는 의미이기 때문에 정보량의 크기, 즉 Entropy가 크다고 알 수 있다.

Cross Entropy는 p와 q라는 확률에 대한 서로 교차하는 Entropy이다.

pi가 특정 확률에 대한 참값 또는 목표 확률이고, // qi가 우리가 현재 학습한 확률값입니다.

예를 들어 여기서는 p=[0.5, 0.125, 0.125, 0.25] 이고, q=[0.25, 0.25, 0.25, 0.25] 가 되는 것이다.

따라서, 우리가 어떤 qi 를 학습하고 있는 상태라면 pi에 가까워질수록 cross entropy 값은 작아지게 된다.

이런 특성 때문에 cross entropy 를 머신러닝에서 많이 쓰는 것이다. 이산형이 아니라 연속형인 확률분포에서는 시그마가 아니라 integral이 들어오게 된다.

위의 binary는 cross entropy와 동일하다. y와 y^hat으로 나뉘는데, 이는 q = 1-p 이기 때문에!

DL : VAE (Variational AutoEncoder) (0)	2020.03.18
DL : VAE Reference (0)	2020.03.18
자연어처리 : 절차적 단계가 뭘까? (0)	2020.03.15
자연어처리 : Word Embedding : Glove (Global Vectors for Word Representation, GloVe) (0)	2020.03.15
자연어처리 : Word Embedding : Word2Vec, CBOW, Skip-Gram, Negative Sampling (0)	2020.03.14

월곡동 로봇팔의 대학원일지