지프의 법칙(Zipf's law)은 수학적 통계를 바탕으로 밝혀진 경험적 법칙으로, 물리 및 사회 과학 분야에서 연구된 많은 종류의 정보들이 지프 분포에 가까운 경향을 보인다는 것을 뜻한다. 지프 분포는 이산 멱법칙 확률분포와 관계된 확률분포의 하나이다. 미국 하버드대학교 언어학자조지 킹슬리 지프(George Kingsley Zipf)가 최초로 이 법칙을 공식 제안(Zipf 1935, 1949)함에 따라 그의 이름을 따 지프의 법칙으로 부르게 되었다. 그러나 실제로는 프랑스의 속기사였던 장바티스트 에스투프(Jean-Baptiste Estoup, 1868~1950)가 지프 이전에 이 법칙을 발견하였다.[1] 또한 독일의 물리학자 펠릭스 아워바흐(Felix Auerbach)도 1913년에 이 법칙에 대해 언급하였다.[2]

지프의 법칙
확률 질량 함수
N = 10 일 때의 지프 확률질량함수의 로그 스케일 그래프. x축은 인덱스값 k를 나타낸다. (이 함수는 오직 정수값의 k에 대해서만 정의된다는 점에 유의할 것. 연결된 직선은 연속성을 의미하지 않는다.)
N = 10 일 때의 지프 확률질량함수의 로그 스케일 그래프. x축은 인덱스값 k를 나타낸다. (이 함수는 오직 정수값의 k에 대해서만 정의된다는 점에 유의할 것. 연결된 직선은 연속성을 의미하지 않는다.)
누적 분포 함수
N = 10 일 때의 지프 누적분포함수 그래프. x축은 인덱스값 k를 나타낸다. Zipf CDF for N = 10. The horizontal axis is the index k . (이 함수는 오직 정수값의 k에 대해서만 정의된다는 점에 유의할 것. 연결된 직선은 연속성을 의미하지 않는다.)
N = 10 일 때의 지프 누적분포함수 그래프. x축은 인덱스값 k를 나타낸다. Zipf CDF for N = 10. The horizontal axis is the index k . (이 함수는 오직 정수값의 k에 대해서만 정의된다는 점에 유의할 것. 연결된 직선은 연속성을 의미하지 않는다.)
매개변수 (실수)
(정수)
지지집합
확률 질량
누적 분포
기댓값
최빈값
엔트로피
적률생성함수
특성함수

특성 편집

지프의 법칙에 따르면 어떠한 자연어 말뭉치 표현에 나타나는 단어들을 그 사용 빈도가 높은 순서대로 나열하였을 때, 모든 단어의 사용 빈도는 해당 단어의 순위에 반비례한다. 따라서 가장 사용 빈도가 높은 단어는 두 번째 단어보다 빈도가 약 두 배 높으며, 세 번째 단어보다는 빈도가 세 배 높다. 예를 들어, 브라운 대학교 현대 미국 영어 표준 말뭉치의 경우, 가장 사용 빈도가 높은 단어는 영어 정관사 “the”이며 전체 문서에서 7%의 빈도(약 백만 개 남짓의 전체 사용 단어 중 69,971회)를 차지한다. 두 번째로 사용 빈도가 높은 단어는 “of”로 약 3.5% 남짓(36,411회)한 빈도를 차지하며, 세 번째로 사용 빈도가 높은 단어는 “and”(28,852회)로, 지프의 법칙에 정확히 들어 맞는다. 약 135개 항목의 어휘만으로 브라운 대학 말뭉치의 절반을 나타낼 수 있다.

지프의 법칙은 도시의 인구 순위나 기업의 크기, 소득 순위 등과 같은 언어학과 관련이 없는 다른 여러 가지 순위에서도 동일하게 발견된다. 도시의 인구 순위 분포에서 발견되는 현상은 1913년 독일의 펠릭스 아워바흐에 의해 처음 발견되었다.[2] 경험적으로, 특정 데이터의 집합에 지프의 법칙이 적용되는지는 데이터의 순위 R, 해당 데이터의 값 n, 그리고 상수값 a, b로 이루어지는 로그 회귀 R = a - b log n을 적용함으로써 확인 가능하다. 지프의 법칙은 b = 1일 때 적용된다. 이 회귀함수가 도시의 크기에 적용될 경우, b = 1.07일 때 더 정확히 맞아 떨어진다. 지프의 법칙은 도시 크기 분포의 상위 항목들에 적용되며, 전체 도시 크기 분포는 로그정규분포이며 지브라의 법칙을 따른다.[3] 지프의 법칙과 지브라의 법칙은 서로 일치하는데, 이것은 로그정규분포의 꼬리가 일반적으로 파레토(지프) 분포의 꼬리와 구분되지 않기 때문이다.

이론적 설명 편집

지프의 법칙은 데이터의 순위와 빈도를 각 축에 로그 스케일로 나타낸 그래프를 통해 쉽게 확인할 수 있다. 예를 들어, 위에서 언급한 단어 “the”는 x = log(1), y = log(69971)인 지점에 나타날 것이다. 이 데이터들을 선형 그래프로 나타내면 지프의 법칙에 잘 들어 맞는다.

변수들을 다음과 같이 정의한다.

  • N ― 요소의 숫자
  • k ― 요소의 순위
  • s ― 분포의 특성을 나타내는 지수값

지프의 법칙에 따르면 N개의 요소들 가운데 순위가 k 번째인 요소의 사용빈도 f(k;s,N)는 다음과 같다.

 

지프의 법칙은 각 요소들의 발생 횟수가 독립적이고 멱법칙 분포   에 따라 동일하게 분포된 랜덤 변수로 나타날 때에만 적용된다.[4]

영어의 단어 사용 빈도 사례에서, N은 영어 단어의 개수이고, 고전적 버전의 지프의 법칙을 사용한다고 가정할 경우 지수 s는 1이다. f(k;s,N)은 k번째로 많이 나타난 단어의 분수가 된다.

이를 정리하면 다음과 같다.

 

여기서 HN,sN 번째 일반화된 조화수이다.

지프의 법칙의 가장 단순한 예는 “1f 함수”이다. 지프 분포를 따르는 빈도가 순위에 따라 정렬되어 주어졌을 때, 2위에 해당하는 빈도는 1위의 빈도의 ½이 된다. 3위의 빈도는 1위 빈도의 ⅓이 된다. 이러한 방식으로, n위의 빈도는 1의 1n이 된다. 다만, 빈도는 정수이므로 2.5와 같은 수가 올 수 없기 때문에 이러한 계산과 실제 빈도 사이에는 약간의 오차가 발생하게 된다. 그럼에도 불구하고 많은 자연 현상들이 꽤 넓은 범위에서 상당한 정확도로 지프의 법칙을 따른다.

수학적으로 지프 분포상의 모든 관계 빈도의 합은 조화급수와 동일하며 다음이 성립한다.

 

인간의 언어에서, 단어의 사용 빈도는 꼬리가 매우 긴 헤비테일 분포를 보이며, 따라서 이는 s 값이 1에 가까운 지프 분포로 상당히 근접하게 모델링할 수 있다.

지수 s가 1을 넘을 경우, 이러한 법칙이 무한히 많은 단어에 적용되는 것이 가능한데, 이것은 s>1 일 때 다음이 성립하기 때문이다.

 

여기서 ζ는 리만 제타 함수이다.

각주 편집

  1. Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0-262-13360-9, p. 24
  2. Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
  3. Eeckhout J. (2004), Gibrat's law for (All) Cities. American Economic Review 94(5), 1429-1451.
  4. Adamic, Lada A."Zipf, Power-laws, and Pareto - a ranking tutorial" Archived 2007년 10월 26일 - 웨이백 머신

읽어보기 편집

주요:

  • George K. Zipf (1949) Human Behavior and the Principle of Least Effort. Addison-Wesley.
  • George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin. (http://citeseer.ist.psu.edu/context/64879/0 의 인용 참조)

기타: