분포 의미론[1](Distributional semantics)은 대규모 언어 데이터 샘플에서 언어 항목 간의 의미적 유사성을 그 분포 특성을 기반으로 정량화하고 분류하기 위한 이론 및 방법을 개발하고 연구하는 연구 분야이다. 분포 의미론의 기본 아이디어는 소위 분포 가설로 요약될 수 있다. 유사한 분포를 갖는 언어 항목은 유사한 의미를 갖는다.

특정 언어에서 단어가 어떻게 관련되어 있는지는 수학적으로 벡터 공간에 해당하는 "시맨틱 공간"에서 보여진다.

분포 가설 편집

언어학의 분포 가설(distributional hypothesis)은 언어 사용의 의미론에서 파생된다. 즉, 동일한 맥락에서 사용되고 발생하는 단어는 유사한 의미를 나타내는 경향이 있다.[2]

"단어는 그것이 유지하는 회사에 의해 특징지어진다"는 근본적인 생각은 1950년대 존 루퍼트 퍼스에 의해 대중화되었다.[3]

분포 가설은 통계 의미론의 기초이다. 분포 가설은 언어학에서 시작되었지만[4] 이제는 특히 단어 사용의 맥락과 관련하여 인지과학에서 주목을 받고 있다.[5]

최근 수 년 동안 분포 가설은 언어 학습에서 유사성 기반 일반화 이론의 기초를 제공했다. 즉, 어린이가 유사한 단어의 분포를 통해 그 사용에 대해 일반화함으로써 이전에 거의 접하지 못했던 단어를 사용하는 방법을 알아낼 수 있다는 아이디어이다.[6][7]

분포 가설은 두 단어가 의미적으로 유사할수록 분포적으로 더 유사할 것이며 따라서 유사한 언어적 맥락에서 더 많이 발생하는 경향이 있음을 시사한다.

같이 보기 편집

각주 편집

  1. Lenci, Alessandro; Sahlgren, Magnus (2023). 《Distributional Semantics》. Cambridge University Press. ISBN 9780511783692. 
  2. Harris 1954
  3. Firth 1957
  4. Sahlgren 2008
  5. McDonald & Ramscar 2001
  6. Gleitman 2002
  7. Yarlett 2008

출처 편집

외부 링크 편집