토픽 모델

기계 학습자연언어 처리 분야에서 토픽 모델(Topic model)이란 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. 특정 주제에 관한 문헌에서는 그 주제에 관한 단어가 다른 단어들에 비해 더 자주 등장할 것이다. 예를 들어 개에 대한 문서에서는 "개"와 "뼈다귀"라는 단어가 더 자주 등장하는 반면, 고양이에 대한 문서에서는 "고양이"와 "야옹"이 더 자주 등장할 것이고, "그", "~이다"와 같은 단어는 양쪽 모두에서 자주 등장할 것이다. 이렇게 함께 자주 등장하는 단어들은 대게 유사한 의미를 지니게 되는데 이를 잠재적인 "주제"로 정의할 수 있다. 즉, "개"와 "뼈다귀"를 하나의 주제로 묶고, "고양이"와 "야옹"을 또 다른 주제로 묶는 모형을 구상할 수 있는데 바로 이것이 토픽 모델의 개략적인 개념이다. 실제로 문헌 내에 어떤 주제가 들어있고, 주제 간의 비중이 어떤지는 문헌 집합 내의 단어 통계를 수학적으로 분석함으로써 알아 낼 수 있다.

그렇기에 토픽 모델은 또한 확률적 토픽 모델이라고도 불리는데, 이는 광범위한 텍스트 본문의 잠재적 의미 구조를 발견하기 위한 통계적 알고리즘을 가리키는 의미로도 쓰인다. 정보화 시대가 도래하면서 매일 생성되는 텍스트는 인간이 직접 처리할 수 있는 양을 크게 넘어서는데, 토픽 모델은 자동적으로 비정형 텍스트의 집합을 이해하기 쉽도록 조직하고 정리하는 데에 쓰일 수 있다. 또한 토픽 모델은 원래 개발된 목적인 텍스트 마이닝 분야 이외에도 유전자 정보, 이미지, 네트워크와 같은 자료에서 유의미한 구조를 발견하는데에도 유용하게 사용되고 있다. 또한 생물정보학과 같은 응용분야에서도 널리 사용되고 있다.[1]

역사편집

1998년 Papadimitriou, Raghavan, Tamaki, Vempala은 잠재 의미 분석(LSI)이라 불리는 모형을 제시하였다.[2] 이 모형은 최초의 토픽 모델로 여겨지는데, 문헌-용어 행렬을 문헌-의미 행렬과 의미-용어 행렬로 분해하는 과정을 통해 잠재 변수인 의미를 발견하고자 했다. 이후 1999년에 토마스 호프만은 문헌-용어 행렬에 용어의 출현 빈도를 출현 확률로 대체하는 확률적 잠재 의미 인덱싱 (Probabilistic latent semantic indexing, PLSI) 모형을 제시하였다.[3] 현재 사용되는 가장 일반적인 주제 모델링의 방법인 잠재 디리클레 할당 (LDA)은 PLSI의 일반화 버전으로 David Blei, Andrew Ng, Michael I. Jordan에 의해 2002년에 개발되었고, 여러 주제가 혼합된 문서를 다룰 수 있게 한다.[4] 

2002년 잠재 디리클레 할당이 제안된 이후, 이 모형을 개선 확장하는 다양한 형태의 변형 모형들이 등장했다. 대표적인 것으로 지도학습을 수행할 수 있도록 확장한 sLDA, 계층적 디리클레 프로세스를 통해 적절한 모수 K값을 찾아가도록 개량한 HDP 토픽 모델, 주제 구조가 여러 층이 될 수 있도록 확장한 hLDA, 주제 간의 포함 관계를 비순환 방향 그래프로 나타낼 수 있도록 확장한 PAM 등이 있다.

알고리즘편집

실제 연구자들은 최대 우도 적합과 같은 여러 휴리스틱을 활용해 데이터 코퍼스에 적합한 모델 인자를 찾고자 한다. Blei의 최근 연구에서는 이 종류의 알고리즘에 대해 서술하고 있다.[5] Papadimitriou외 여러명의 구성원[2]으로 시작된 연구자들 그룹은 가능성이 보장된 알고리즘을 설계하고자 했다. 문제의 모델에 의해 자료가 실제 생성되었다고 가정하고, 그들은 자료를 생성하는데 쓰일 수 있는 모델을 찾을 수 있는 알고리즘을 고안하고자 시도했다. 여기에 쓰인 기술에는 특잇값 분해(SVD)과 모멘트 방법이 있다. 2012년에는 음수 미포함 행렬 분해(NMF)에 기반한주제 간의 상관관계를 가지고 주제 모델을 일반화하는 알고리즘이 소개되었다.[6]

더 보기편집

소프트웨어/라이브러리편집

각주편집

  1. Blei, David (April 2012). “Probabilistic Topic Models”. 《Communications of the ACM》 55 (4): 77–84. doi:10.1145/2133806.2133826. 
  2. Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh (1998). “Latent Semantic Indexing: A probabilistic analysis”. 《Proceedings of ACM PODS》. 2013년 5월 9일에 원본 문서 (Postscript)에서 보존된 문서. 2017년 1월 3일에 확인함. 
  3. Hofmann, Thomas (1999). “Probabilistic Latent Semantic Indexing” (PDF). 《Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval》. 2010년 12월 14일에 원본 문서 (PDF)에서 보존된 문서. 2017년 1월 3일에 확인함. 
  4. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John (January 2003). “Latent Dirichlet allocation”. 《Journal of Machine Learning Research3: 993–1022. doi:10.1162/jmlr.2003.3.4-5.993. 2012년 5월 1일에 원본 문서에서 보존된 문서. 2017년 1월 3일에 확인함. 
  5. Blei, David M. (April 2012). “Introduction to Probabilistic Topic Models” (PDF). 《Comm. ACM》 55 (4): 77–84. doi:10.1145/2133806.2133826. 2017년 2월 15일에 원본 문서 (PDF)에서 보존된 문서. 2017년 1월 3일에 확인함. 
  6. Sanjeev Arora. “Learning Topic Models—Going beyond SVD”. arXiv:1204.1956.