문서 분류(Document classification)는 문헌정보학, 정보과학컴퓨터 과학의 문제이다. 작업은 하나 이상의 클래스 또는 범주에 문서를 할당하는 것이다. 이는 "수동으로"(또는 "지적으로") 또는 알고리즘적으로 수행될 수 있다. 문서의 지적 분류는 주로 도서관학 분야인 반면, 문서의 알고리즘적 분류는 주로 정보과학 및 컴퓨터 과학 분야이다. 그러나 문제가 중복되어 문서분류에 대한 학제간 연구가 진행되고 있다.

분류할 문서는 텍스트, 이미지, 음악 등이 될 수 있다. 각 종류의 문서에는 특별한 분류 문제가 있다. 별도로 지정하지 않으면 텍스트 분류(text classification)가 암시된다.

문서는 주제나 기타 속성(예: 문서 유형, 작성자, 인쇄 연도 등)에 따라 분류될 수 있다. 이 기사의 나머지 부분에서는 주제 분류만 고려한다. 문서의 주제 분류에는 내용 기반 접근 방식과 요청 기반 접근 방식이라는 두 가지 주요 철학이 있다.

자동 문서 분류 편집

자동 문서 분류(Automatic document classification, ADC) 작업은 세 가지 종류로 나눌 수 있다. 일부 외부 메커니즘(예: 사람의 피드백)이 문서의 올바른 분류에 대한 정보를 제공하는 지도적 문서 분류(supervised document classification), 분류가 수행되어야 하는 비지도 문서 분류(unsupervised document classification, '문서 군집화'), 외부 정보를 전혀 참조하지 않고, 문서의 일부가 외부 메커니즘에 의해 레이블이 지정되는 준지도 문서 분류(semi-supervised document classification)이다. 다양한 라이선스 모델에 따라 여러 가지 소프트웨어 제품을 사용할 수 있다.

같이 보기 편집

외부 링크 편집