점별 상호정보량

점별 상호정보량(Pointwise mutual information, PMI)[1]통계학, 확률론, 정보 이론에서 상관의 척도이다. 두 사건이 함께 발생할 확률을 사건이 독립적인 경우의 확률과 비교한다.[2]

PMI(특히 긍정 점별 상호정보량 변형)는 "NLP에서 가장 중요한 개념 중 하나"로 설명되었으며, 여기서 "두 단어 사이의 연관성을 평가하는 가장 좋은 방법은 얼마나 더 많은지 묻는 것"이라는 직관을 이끌어낸다. 두 단어는 우리가 선험적으로 두 단어가 우연히 나타날 것이라고 기대했던 것보다 말뭉치에서 동시에 발생한다."[2]

이 개념은 1961년 로버트 파노(Robert Fano)가 "상호정보"(mutual information)라는 이름으로 선보였지만 오늘날 이 용어는 대신 무작위 변수 간의 관련 의존성을 측정하는 데 사용된다.[2] 두 이산 무작위 변수의 상호정보(MI)는 평균을 나타낸다. 이는 가능한 모든 이벤트의 PMI이다.

각주 편집

  1. Kenneth Ward Church and Patrick Hanks (March 1990). “Word association norms, mutual information, and lexicography”. 《Comput. Linguist.》 16 (1): 22–29. 
  2. Dan Jurafsky and James H. Martin: Speech and Language Processing (3rd ed. draft), December 29, 2021, chapter 6

외부 링크 편집