선형 분류

기계 학습 분야에서 통계적 분류는 개체의 속성을 이용하여 그 개체가 속하는 그룹, 또는 클래스를 판별하는 것을 목표로 한다. 선형 분류에서는 주어진 속성의 선형결합을 바탕으로 분류를 수행한다. 개체의 속성은 피처 값이라고 부르기도 하는데, 보통 피쳐 벡터라는 벡터 형태로 제공한다.

정의 편집

여기에서 검은 점과 흰 점은 무수히 많은 직선으로 분류할 수 있다. 예를 들어 H1(파란색)과 H2(빨간색) 모두 이 두 점 그룹을 올바르게 분류하는 직선이다. 이 둘 중에서 H2가 양쪽 그룹으로부터 더 멀리 있기 때문에 더 낫다고 할 수 있다. H3(녹색)는 두 부류의 점들을 제대로 분류하지 못한다.

분류기에 실벡터 ${\vec {x}}$ 가 피쳐 벡터로 주어졌다고 할 때, 다음과 같이 점수를 매길 수 있다.

y=f({\vec {w}}\cdot {\vec {x}})=f\left(\sum _{j}w_{j}x_{j}\right),

이 때 ${\vec {w}}$ 는 가중치를 나타내는 실벡터이며, f는 두 벡터의 스칼라곱을 원하는 값으로 변환하는 함수이다. (바꿔 말하자면, ${\vec {w}}$ 는 ${\vec {x}}$ 를 R로 보내는 1형식 또는 선형 범함수이다.) 가중치 벡터 ${\vec {w}}$ 는 레이블이 있는 훈련용 표본으로부터 학습을 통해 구한다. f는 어떤 문턱값을 넘으면 첫 번째 클래스로, 그렇지 않으면 두 번째 클래스로 대응시키는 식으로 간단하게 만들 수도 있는 반면 어떤 항목이 특정 클래스에 속할 확률을 계산하는 식으로 복잡하게 만들 수도 있다.

2차원 분류 문제에서는 선형 분류 연산을 고차원 입력공간을 어떤 초평면으로 가르는 작업으로 시각화할 수 있다. 초평면의 한 쪽에 있는 점은 “예”로, 반대쪽에 있는 점은 “아니오”로 나누는 것처럼 말이다.

선형 분류는 가장 빠른 분류 방법 중 하나기 때문에 분류 속도가 중요한 상황에서 많이 사용한다. 특히 ${\vec {x}}$ 가 성긴 경우에 많이 쓰인다. ${\vec {x}}$ 가 고차원 벡터인 경우에도 선형 분류를 많이 쓰는데, 예를 들어 문서 분류의 경우에 ${\vec {x}}$ 의 각 원소는 보통 문서에 들어있는 특정 단어의 사용 회수로 주어진다. (문서-단어 행렬 참조) 그런 경우에는 분류기가 잘 정칙화되어 있어야 한다.

같이 보기 편집

더 보기:

Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pp. 42–49, (1999). paper @ citeseer
R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X