정보 엔트로피: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
Jiwon7258 (토론 | 기여)
잔글편집 요약 없음
Jiwon7258 (토론 | 기여)
잔글편집 요약 없음
22번째 줄:
무손실 압축은 압축된 메시지를 복원함으로써 원래 메시지를 온전히 복원할 수 있음을 의미한다. 무손실 압축된 메시지는 원본 메시지와 정보량은 같지만 더 적은 문자를 가진다. 많은 정보량은 높은 엔트로피를 가지고 있다는 말과 같다. 중복성이 거의 없다는 뜻이다. 개략적으로 말해서, 섀년의 소스 코딩 정리는 무손실 압축이 문자 1비트가 1비트 이상의 정보를 포함하도록 할 수는 없지만, 어떤 코딩 방법에 의해 문자 1비트당 1비트 이하만큼의 정보를 포함하도록 할 수 있다고 말한다. 비트당 메시지의 엔트로피와 메시지 길이의 곱은 전체 메시지가 얼마나 많은 정보를 담고 있는지를 알려준다.
 
직관적인 이해를 위해, 우리가 ABCD 4가지 문자로 이루어져있는 메시지를 전달한다고 생각해보자. 이 메시지는 ‘ABADDCAB’이다. 정보 이론은 우리에게 메시지를 전달할 가장 작은 정보량을 계산하는 방법을 제공한다. 만약 4개 글자가 모두 확률이 동일하다면 (25%), A는 00, B는 01, C는 10, D는 11과 같이 2트로 (바이너리에서) 인코딩하는 수 밖에 방법이 없다. 이제 A가 70%, B가 26%, C와 D가 2%의 확률로 발생한다고 가정하자. 우리는 각각의 문자에 가변 길이 코드를 부여할 수 있다. 우리가 순차적인 2비트의 1 (11)을 받지 않았다면, 1을 받는 것은 다음 비트까지 조사하라는 것을 의미한다. 이 경우에 A는 0 (1비트), B는 10 (2비트), C와 D는 각각 110, 111 (3비트)로 인코딩 될 수 있다. 70%의 경우, 우리는 1비트만 전송하며 26%의 경우 2비트를, 나머지 4%의 경우에만 3%를 전송한다. 평균적으로, 2비트 이하의 정보를 전송하기 때문에 엔트로피는 감소한다.(A와 B를 합치면 96%라는 높은 출현빈도가 나오기 때문이다)
 
만약 4개 글자가 모두 확률이 동일하다면 (25%), A는 00, B는 01, C는 10, D는 11과 같이 2트로 (바이너리에서) 인코딩하는 수 밖에 방법이 없다.
 
이제 A가 70%, B가 26%, C와 D가 2%의 확률로 발생한다고 가정하자. 우리는 각각의 문자에 가변 길이 코드를 부여할 수 있다. 우리가 순차적인 2비트의 1 (11)을 받지 않았다면, 1을 받는 것은 다음 비트까지 조사하라는 것을 의미한다. 이 경우에 A는 0 (1비트), B는 10 (2비트), C와 D는 각각 110, 111 (3비트)로 인코딩 될 수 있다. 70%의 경우, 우리는 1비트만 전송하며 26%의 경우 2비트를, 나머지 4%의 경우에만 3%를 전송한다. 평균적으로, 2비트 이하의 정보를 전송하기 때문에 엔트로피는 감소한다.(A와 B를 합치면 96%라는 높은 출현빈도가 나오기 때문이다)
 
섀넌의 이론은 어떤 무손실 압축 방식도 모든 메시지를 줄일 수는 없다는 것도 의미한다. 비둘기집 원리에 의해서, 어떤 메시지가 짧게 압축되기 위해서 최소한 다른 하나는 길어져야 한다. 평소에 우리가 횡설수설하는 문서보다는 문법에 따라 쓰인 문장을 압축하는 것처럼, 특정한 형식의 메시지만을 압축하는 것에 집중하기 때문에 압축 알고리즘이 어떤 메시지를 늘이는가는 별로 문제되지 않는다. 그러나 이 문제는 이미 압축된 데이터를 다시 압축하려고 할 때 드러난다. 실제로, 우리는 FLAC, MP3, WebM, AAC, PNG, JPEG 같은 압축된 데이터들을 다시 ZIP 형식으로 압축하면 원본 데이터보다 용량이 조금 더 늘어나 있는 것을 목격할 수 있다.