주 메뉴 열기

바뀜

<math>{{\partial \ell} \over {\partial \theta_k}} = \sum_{i=1}^N \sum_{t=1}^T f_k(y_t^{(i)}, y_{t-1}^{(t)}, \mathbf{x}_t^{(t)}) - \sum_{i=1}^N \sum_{t=1}^T \sum_{y,y'} f_k(y, y', \mathbf{x}_t^{(i)}) p(y,y' | \mathbf{x}^{(i)}) - {{\theta_k} \over {\sigma^2}} </math>
 
앞에서 세운 가능도 함수와 기울기 식을 이용해 가능도 함수를 극대화 시키는 <math>\theta</math>를 찾아내면 된다. 가능도 함수를 최적화 시키는 간단한 방법으로는 기울기에 대한 최대 경사법(steepest ascent)를 사용하는 방법이 있다. 하지만 이 방법은 많은 반복을반복(iteration)을 요구함으로써요구하기 때문에 실용적이지 못하다. [[뉴턴의 방법]](Newton's method)은 속도가 더 빠르지만 파라미터에 대한 [[헤세 행렬]](Hessian: 모든 이차 미분값에 대한 행렬)을 계산해야하기 때문에, 많은 저장 공간을 요구함으로써 실용적이지 못하다. 주로 BFGS와 같은 쿼시-뉴턴 방법 혹은 [[켤레기울기법]](conjugate gradient method)을 이용해 근사치를 계산하는 방법이 주로 사용된다.
 
만약 조건부 무작위장이 일반적 그래프일 경우, 최대 가능도 학습으로는 <math>\theta</math>를 구하기 쉽지 않다(intractable). 이 문제를 다루기 위해서는 근사적 추론 방법을 이용하거나, 혹은 최대 가능도 방법 외에 다른 학습 기준을 선택해야 한다.
익명 사용자