정보 엔트로피: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
Conr2d (토론 | 기여)
잔글 오타 및 표현 일부 수정
편집 요약 없음
3번째 줄:
[[정보 이론]]에서 시스템은 송신자, 채널, 수신자를 이용하여 모형화 한다. 송신자는 채널을 통해 전달되는 메시지를 만들어낸다. 채널은 특정한 방식을 통해 메시지를 변경한다. 수신자는 어떤 메시지가 보내진 것인지 추론하고자 한다. 이 맥락에서 '''정보 엔트로피'''(또는 '''[[:en:Shannon Entropy|섀넌 엔트로피]]''')는 각 메시지에 포함된 정보의 [[기댓값]](평균)이다. '메시지'는 어떤 흐름의 정보에 대해서도 모형화 할 수 있다.
 
좀 더 기술적인 관점에서 보면 정보는 발생 가능한 사건이나 메시지의 확률분포의 음의 로그로 정의할 수 있다. 각 사건의 정보량은 그 기댓값, 또는 평균이 섀넌 엔트로피인 확률변수를 형성한다. 엔트로피의 단위는 정의에 사용된 로그의 밑이 무엇인지에 따라 섀넌([[:en:shannon섀넌 (unit단위)|shannon섀넌]](shannon), 내트([[:en:nat (unit)|nat]]) 또는 하틀리([[:en:hartely (unit)|hartely]])를 사용한다. 단, 섀넌의 경우 보통 비트(bit)로 표현한다.
 
확률분포의 로그는 엔트로피의 단위로 사용하기에 매우 유용한데 이는 독립적인 소스(source)들에 대해 그 값을 더할 수 있기 때문이다. 예를 들어 동전을 1개 던지면 엔트로피는 1 섀넌이고, {{math|''m''}} 개의 동전을 던질 때는 {{math|''m''}} 섀넌이다. {{math|''n''}} 이 2의 거듭제곱일 때, 일반적으로 {{math|''n''}} 개의 값 중 하나를 취하는 변수를 표현하기 위해서는 {{math|log<sub>2</sub>(''n'')}} 비트가 필요하다. 모든 값의 발생 확률이 동일하면, (섀넌으로 표현된) 엔트로피는 비트의 개수와 동일하게 된다. 비트의 개수와 섀넌이 동일한 경우는 모든 결과의 발생 확률이 동일한 경우로 한정된다. 만약 하나의 사건이 다른 사건보다 발생할 확률이 높다면 그 사건에 대한 관측이 제공할 수 있는 정보는 적다. 반대로 희귀한 사건을 관측하면 더 많은 정보를 얻을 수 있다. 확률이 낮은 사건에 대한 관측은 덜 발생할 것이므로 순 효과는 불균등하게 분포한 자료로부터 얻어진 {{math|log<sub>2</sub>(''n'')}} 보다 작은 엔트로피가 된다. 하나의 사건이 확실하게 일어나는 경우라면 엔트로피는 0 이 된다. 섀넌 엔트로피는 소스(source)의 확률분포가 알려져 있을 때 이 모든 고려사항을 수치화한다. 관측된 사건들의 의미(메시지의 의미)는 엔트로피를 정의할 때 중요하지 않다. 엔트로피는 특정한 사건이 일어날 확률만을 고려함으로써 사건의 배후에 존재하는 확률분포에 대한 정보를 캡슐화할뿐 사건 자체의 의미는 포함하지 않는다.