퍼플렉시티(Perplexity)는 정보 이론에서 이산 확률 분포에서 표본 값의 불확실성을 측정한 것이다. 복잡성이 클수록 관찰자가 분포에서 도출될 값을 추측할 가능성이 줄어든다. 퍼플렉시티는 원래 프레데릭 젤리네크, 로버트 르로이 머서, 라릿 R. 발, 제임스 K. 베이커가 음성 인식의 맥락에서 1977년에 선보였다.[1]

확률 분포의 퍼플렉시티 편집

이산 확률 분포 p의 퍼플렉시티 PP는 정보 이론, 기계 학습 및 통계 모델링에서 널리 사용되는 개념이다. 이는 다음과 같이 정의된다.

 

여기서 H(p)는 분포의 엔트로피(비트 단위)이고 x는 이벤트에 대한 범위이다. 로그의 밑이 2일 필요는 없다. 엔트로피와 지수가 동일한 밑을 사용하는 경우 난산도는 밑과 독립적이다. 일부 상황에서는 이 측정값을 (order-1 true) 다양성이라고도 한다.

각주 편집

  1. Jelinek, F.; Mercer, R. L.; Bahl, L. R.; Baker, J. K. (1977). “Perplexity—a measure of the difficulty of speech recognition tasks”. 《The Journal of the Acoustical Society of America》 62 (S1): S63–S63. doi:10.1121/1.2016299. ISSN 0001-4966.