자동 요약

자동 요약은 원본 문서의 요점들을 추린 요약문을 생성하기 위해 소프트웨어를 활용하여 텍스트 문서의 길이를 줄이는 과정이다. 조리 있는 요약문을 만들기 위해 글의 길이, 문체, 구문론 등의 변수가 고려된다.

자동 데이터 요약은 기계 학습데이터 마이닝의 한 부분이다. 요약의 주된 아이디어는 전체 집합으로부터 "정보"를 갖고 있는 부분 집합을 찾는 것이다. 이러한 기술은 오늘날 여러 산업 분야에서 활용되고 있는데 한 가지 예로 검색 엔진을 들 수 있다. 이 밖에 문서 요약, 이미지 컬렉션 요약, 동영상 요약 등이 있다. 문서 요약은 정보를 가장 많이 포함한 문장들을 찾아내 이들로부터 전체 문서를 대표할 수 있는 요약문 또는 개요를 생성하는 작업이다. 이미지 요약에서는 전체 컬렉션에서 대표적인 또는 가장 중요한 이미지들을 찾는 시스템을 만들고자 하며, 동영상 감시 시스템에서는 특이점이 없는 장면들 속에서 중요한 이벤트가 있는 부분만 추출하는 것이 목표가 된다.

자동 요약에는 두 가지 대표적인 접근법이 있는데 추출추상화이다. 추출 기법은 기존의 단어, 구(句), 문장들의 부분 집합을 원본 텍스트로부터 선택하여 요약문을 만들어낸다. 이와 다르게 추상화 기법은 의미론적(semantic)인 내부 표현을 구성하고 이를 기반으로 인간이 했을법한 표현에 보다 가까운 자연어 요약문을 생성한다.

지금까지의 연구는 주로 추출 기법에 집중되어 있으며 이는 이미지 컬렉션 요약 또는 동영상 요약에 주로 적절한 방식이다.