일반화 벡터 공간 모델

일반화 벡터 공간 모델(一般化―空間―, 영어: generalized vector space model)은 정보 검색에서 사용되는 벡터 공간 모델을 일반화한 모델이다. 웡 등은 그의 연구^[1]에서 벡터 공간 모델의 상호 직교성 가정이 갖는 문제점을 분석하였으며, 기존의 모델을 보완하는 일반화 벡터 공간 모델을 제안하였다.

정의 편집

일반화 벡터 공간 모델은 상호 직교성 가정을 버리고 단어간 상관도 개념을 도입하였다. 이에 각 단어 벡터 t_i가 2ⁿ개의 벡터 m_r의 선형 조합으로 표현되는 새로운 공간 개념이 사용된다. 여기서 r = 1...2ⁿ이다.

문서 d_k와 질의 q의 유사도는 다음과 같이 계산된다.

sim(d_{k},q)={\frac {\sum _{j=1}^{n}\sum _{i=1}^{n}w_{i,k}*w_{j,q}*t_{i}\cdot t_{j}}{{\sqrt {\sum _{i=1}^{n}w_{i,k}^{2}}}*{\sqrt {\sum _{i=1}^{n}w_{i,q}^{2}}}}}

t_i와 t_j는 2ⁿ차원 공간의 벡터이다.

단어 상관도 $t_{i}\cdot t_{j}$ 는 여러 가지 방식으로 구현될 수 있다. 웡의 논문에서는 자동 색인에 의해 생성된 단어 빈도 행렬을 입력으로 받아 모든 색인 단어쌍에 대한 상관도를 출력하는 알고리즘을 적용하였다.

의미 정보의 처리 편집

전체 단어 일치 방식을 제외했을 때, 정보 검색 모델에서 단어간 관련성을 고려하는 방향에는 크게 다음의 두 가지가 있다.

단어간의 의미적 상관도를 계산하는 방식
대량의 말뭉치에서 단어들의 동시 발생 빈도를 통계적으로 계산하는 방식

최근 차차로니스에 의한 발표된 논문^[2]에서 첫 번째 방식에 대해 자세히 다루었다. 이 논문에서는 의미적 관련성(semantic relatedness, SR)을 워드넷과 같은 유의어 사전(O)을 이용해 계산했다. 밀도(compactness, SCM)에 의해 구해지는 경로 길이(path length)와 의미적 길이 합성(sementic path elaboration, SPE)에 의해 구해지는 경로 깊이(path depth) 개념이 사용되었다. 유사도 공식에 포함된 $t_{i}\cdot t_{j}$ 값은 다음과 같이 계산되었다.

$t_{i}\cdot t_{j}=SR((t_{i},t_{j}),(s_{i},s_{j}),O)$

s_i와 s_j는 각각 단어 t_i와 t_j의 의미이며, $SCM\cdot SPE$ 를 최대화하는 값으로 결정된다.

각주 편집

↑ S. K. M. Wong; Wojciech Ziarko, Patrick C. N. Wong (1985년 6월 5일), 《Generalized vector spaces model in information retrieval》, SIGIR ACM
↑ George Tsatsaronis; Vicky Panagiotopoulou (2009년 4월 2일), 《A Generalized Vector Space Model for Text Retrieval Based on Semantic Relatedness》 (PDF), EACL ACM

[wong-1] S. K. M. Wong; Wojciech Ziarko, Patrick C. N. Wong (1985년 6월 5일), 《Generalized vector spaces model in information retrieval》, SIGIR ACM

[2] George Tsatsaronis; Vicky Panagiotopoulou (2009년 4월 2일), 《A Generalized Vector Space Model for Text Retrieval Based on Semantic Relatedness》 (PDF), EACL ACM

[1]

[2]