"사용자:Frf1226/연습장"의 두 판 사이의 차이

 
== 예제 ==
시퀀스 모델링은 보통 연쇄 그래프(chain graph: 방향성이 있는 혹은 없는 간선을 모두 가질 수 있으면서 방향성 순환(directed cycle)이 없는 그래프)를 이용해 모델링된다. 관측된 변수들의 벡터 <math>X</math>의 일련의 입력은 일련의 관측을 표현하며, <math>Y</math>는 관측된 값이 주어졌을 때 추론되어야 할 숨겨진 변수(hidden state variable or unknown state variable)들을 나타낸다. <math>Y_i</math>는 <math>Y_{i-1}</math>과 <math>Y_i</math> 사이에 간선이 연결되도록 연쇄적인 구조로 조직된다. <math>Y_i</math>를 일련의 입력의 각 원소들에 대한 레이블(label)로써 해석할 수 있는 간단함을 제공하는 것 외에도, 이러한 구조는 다음과 같은 작업을 효율적으로 처리 가능하도록 한다:
In sequence modeling, the graph of interest is usually a chain graph. An input sequence of observed variables X represents a sequence of observations and Y represents a hidden (or unknown) state variable that needs to be inferred given the observations. The Y_{i} are structured to form a chain, with an edge between each Y_{i-1} and Y_{i}. As well as having a simple interpretation of the Y_{i} as "labels" for each element in the input sequence, this layout admits efficient algorithms for:
* 모델 학습: 트레이닝 데이터 뭉치(corpus)에서부터 추출한 자질값들과 <math>Y_i</math> 사이에 조건부 확률 분포를 학습
* 디코딩: <math>X</math>가 주어졌을 때, 각 <math>Y</math>에 대한 확률을 결정
* 추론: <math>X</math>가 주어졌을 때, 가장 가능성이 높은 <math>Y</math>의 값을 결정
 
<math>X</math>에 대한 각 <math>Y_i</math>의 조건부 의존성(conditional dependency)는 <math>f(i, Y_{i-1}, Y_i, X)</math>[[]]의 형태를 갖는 자질 함수의 고정된 집합을 통해 정이된다. 이 함수는 입력 시퀀스에 대해 각 <math>Y_i</math> 값에 대한 가능도를 어느 정도 결정할 수 있는 측정치로 간주될 수 있다. 이 모델은 각 자질에 대해 수치적 가중치를 부여하고 이를 조합함으로써 <math>Y_i</math>의 값에 대한 확률을 결정한다.
model training, learning the conditional distributions between the Y_{i} and feature functions from some corpus of training data.
decoding, determining the probability of a given label sequence Y given X.
inference, determining the most likely label sequence Y given X.
The conditional dependency of each Y_{i} on X is defined through a fixed set of feature functions of the form f(i, Y_{i-1}, Y_{i}, X), which can informally be thought of as measurements on the input sequence that partially determine the likelihood of each possible value for Y_{i}. The model assigns each feature a numerical weight and combines them to determine the probability of a certain value for Y_{i}.
 
선형 체인 조건부 무작위장(linear-chain CRFs)은 개념적으로 보다 단순한 [[은닉 마르코프 모델]]과 응용되는 문제가 비슷하다. 단 입력, 출력 시퀀스의 분포에 대한 가정을 어느 정도 완화하였다. 은닉 마르코프 모델은 상태 전이(state transition)와 방출(emission)을 모델링하기 위해 고정된 확률(constant probability)을 사용하는 자질 함수만을 사용하는 조건부 무작위장으로 생각될 수 있다. 반면, 조건부 무작위장은 은닉 마르코프 모델의 일반화된 버전으로 생각될 수 있으며, 고정된 전이 확률 대신에 일련의 은닉 상태들의 구성에 따라 다른 임의의 함수를 입력 시퀀스마다 다르게 사용한다.
Linear-chain CRFs have many of the same applications as conceptually simpler hidden Markov models (HMMs), but relax certain assumptions about the input and output sequence distributions. An HMM can loosely be understood as a CRF with very specific feature functions that use constant probabilities to model state transitions and emissions. Conversely, a CRF can loosely be understood as a generalization of an HMM that makes the constant transition probabilities into arbitrary functions that vary across the positions in the sequence of hidden states, depending on the input sequence.
 
은닉 마르코프 모델과는 대조적으로 주목할 점은, 조건부 무작위장은 임의의 개수의 자질 함수를 포함할 수 있으며, 이 자질 함수는 추론 중 어느 시점에서라도 전체 입력 시퀀스 <math>X</math>를 살펴볼 수 있고, 자질 함수의 범위(range)는 확률적으로 해석될 필요가 없다.
Notably in contrast to HMMs, CRFs can contain any number of feature functions, the feature functions can inspect the entire input sequence X at any point during inference, and the range of the feature functions need not have a probabilistic interpretation.
 
== 다른 방법에 비한 장점 ==
익명 사용자