사용자:Nns17th/연습장

잠재변수 모델(latent-variable)

편집

위 모델은 잠재변수 모델로서 동등한 공식화가 존재한다. 이 공식화는 이산 선택 모델 이론에서 공통적으로 쓰이며, 로지스틱 회귀를 이와 깊이 관련된 프로빗 모델과 비교하기 쉽도록 해줄뿐만 아니라, 다수의 상호연관된 선택지를 지니는 더 복잡한 특정 모델로 확장하기 쉽게 해준다. 매 i번째 시행마다 연속적인 잠재변수  (즉, 관찰되지 않은 확률변수)가 다음과 같이 분포해 있다고 해보자:

 

where

 

즉, 잠재변수는 선형 예측변수 함수와 표준 로지스틱 분포를 따르는 가산 확률 오차 변수로써 곧바로 표현될 수 있다. 그러면,  를 이 잠재변수가 양수인지 아닌지에 대한 지표로 볼 수 있다:

 

오차 변수를 구체적으로 표준 로지스틱 분포를 따르도록 모델링하는 것은 임의의 위치 및 축척을 가지는 보편적인 로지스틱 분포로 모델링하는 것보다 제한적이어 보이나, 사실은 그렇지 않다. 회귀 계수는 얼마든지 마음대로 고를 수 있고, 때때로 오차 변수 분포의 매개변수 변화량을 상쇄시키는데 사용될 수 있음을 명심해야 한다. 예를 들어, 0이 아닌 위치 매개변수 μ(평균값)를 가지는 로지스틱 오차 변수 분포는 절편계수에 μ를 더하면 위치 매개변수가 0인 분포와 동등해진다. 두 경우 모두 설명 변수의 설정과는 관계없이 같은  값을 낳는다. 마찬가지로 임의의 축척 매개변수 s는 축척 매개변수를 1로 설정한 뒤 모든 회귀 계수를 s로 나눈 것과 동등한 효과를 나타낸다. 후자의 경우,  의 결과값이 모든 설명변수들의 조합에 대해 이전보다 s배만큼 작아진다—그러나 중요한건, 0을 기준으로 언제나 동일한 쪽에 남아있기 때문에, 결국 같은   선택을 가져온다.

(이러한 사실에서 곧 축척 매개변수의 무관성이 두 개 이상의 선택이 존재하는 보다 더 복잡한 모델에도 적용되지는 않을 수도 있음을 예견한다는 점에 주목하자.)

앞서 잠재변수 없이 일반화된 선형 모델로 표현된 것과 이 공식화가 정확히 동등함이 알려져 있다. 이는 표준 로지스틱 분포누적 분포 함수로지스틱 함수, 즉, 로짓 함수의 역함수라는 사실을 이용하여 다음과 같이 보여질 수 있다. 다시 말해,

  이고,

Then:

 

이 공식화—표준 이산 선택 모델—는 표준 로지스틱 분포 대신 표준 정규 분포를 따르는 오차 변수가 사용된 프로빗 모델과 로지스틱 회귀("로짓 모델") 사이의 관계를 명료하게 한다. 로지스틱 분포와 정규 분포 둘 다 단봉형의 "종형 곡선" 모양으로 대칭적이다. 유일한 차이점은 로지스틱 분포가 조금 더 무거운 꼬리를 가지고 있어, 외진 데이터(outlying data)에 대해 덜 예민하다는 것이다(따라서 그릇된 데이터에 대해 더 강건하다).

이중(two-way) 잠재변수 모델

편집

또 다른 공식화는 별개의 두 잠재변수를 사용한다:

 

where

 

where EV1(0,1) is a standard type-1 extreme value distribution: i.e.

 

Then

 

이 모델은 종속변수의 가능한 각 결과값들에 대하여 별개의 잠재변수와 별도의 회귀 계수 집합을 가지고 있다. 이렇게 변수들을 분리하는 이유는, 로지스틱 회귀를 다항 로짓 모델에서처럼 다수-결과값의 범주적 변수들로 확장하기 쉽게 만들어 주기 때문이다. 이러한 모델에서는 서로 다른 회귀 계수들을 사용하여 가능한 각 결과값을 모델링하는게 당연하다. 각 별개의 잠재변수들을 관련된 선택을 하는데 있어 이론적인 효용(utility)으로서 의미를 부여하면, 효용 이론면에서 로지스틱 회귀를 일깨우는 것도 가능하다. (효용 이론면에서, 이성적인 수행자는 언제나 가장 큰 효용과 결부된 선택지를 고른다.) 이 접근법은 이론적으로 강력한 토대를 제공할뿐만 아니라, 모델에 대한 직관을 용이하게 하기 때문에 경제학자들이 이산 선택 모델을 공식화할 때 채택하는 방법이다. 바꿔 말하면, 다양한 종류의 확장들을 고려하기 쉽게 해준다.

제1형 극값 분포를 선택한 것은 상당히 임의적으로 보이지만, 이는 수학적 계산이 가능케 하고, 이성적 선택 이론을 통해 사용예들을 정당화할 수 있게끔 해준다.

이제는 두 벌의 회귀 계수들과 오차 변수들이 존재하고, 오차 변수가 다른 분포를 따르기 때문에 불분명해 보일 수도 있지만, 이 모델이 이전의 모델과 동등함이 밝혀져 잇다. 사실은 다음의 치환을 통해 이 모델이 이전의 모델로 곧바로 축소된다.

 
 

이 치환에 대한 직관은 다음의 사실로부터 얻어진다. 두 값 중 최대값을 기준으로 선택되기 때문에, 정확한 값들이 아닌 두 값의 차이만이 중요해진다—이로써 하나의 자유도가 실질적으로 제거된다. 또 다른 중요한 사실은 제1형 극값 분포 변수들의 차이가 로지스틱 분포라는 점, 즉,   이라고 하면,

다음과 같이 동치를 증명할 수 있다:

 

로그-선형 모델

편집

또 다른 공식화는 바로 위의 이중 잠재변수 공식화와 더 위의 잠재변수가 없는 공식화를 결합한다. 그 과정에서 다항 로짓의 표준 공식화에 한 연결점을 제공한다.

여기서는 확률의 로짓 pi를 선형 예측 변수로 쓰는 대신에, 각 두 결과값에 따라 선형 예측 변수를 둘로 분리한다:

 

이중 잠재변수 모델에서처럼 별도의 회귀 계수들이 쌍으로 도입되었고, 두 식의 마지막에 추가적으로   항과 함께 선형 예측 변수로서 관련된 확률이 로그 형태로 나타나 있음에 주목하자. 보다시피 이 항은 결과가 확률분포가 되도록 정규화 인자로서 작용한다. 이는 양변을 지수화 함으로써 보여질 수 있다:

 

이런 형태에서 보면, Z의 용도가 실은 결과를 Yi에 대한 확률분포(즉, 총합이 1)가 되도록 만드는 것임이 확실해진다. 이는 Z가 단순히 비정규화 확률의 총합이라는 것, 그리고 각 확률을 Z로 나누면 "정규화" 확률이 된다는 것을 의미한다. 다시 말해서:

 

그 결과 방정식들은

 

또는, 일반적으로

 

위에서처럼 다항 로짓과 같은 둘 이상의 결과값에 대하여 일반화된 공식화를 보일 수 있다. 일반화된 공식화가 Softmax 함수와 정확히 일치함에 유의하자.

 

이전 모델과 이 동치가 같음을 증명하기 위해, 바로 위 식에서 중복적으로 명시된 사항(   는 서로 독립적이지 않다)을 이용하자:  이므로 둘 중 하나만 알면 나머지 하나도 저절로 알 수 있다. β0, β1의 복수 조합으로써 가능한 모든 설명변수들에 대하여 동일한 확률을 내놓기 때문에 결국 모델은 비식별적이다. 사실, 두 식에 아무런 상수 벡터를 더해도 같은 확률을 나타냄을 보일 수 있다:

 

결과적으로, 두 벡터 중 하나에 임의의 값을 선택함으로써 식별성을 복원하고, 문제를 간소화할 수 있다.  을 선택했다면,

 

따라서

 

이로써 이 공식화가 이전의 공식화와 동등함이 확실히 보여진다. (이중 잠재변수 모델에서  로 설정함으로써 동등한 결과를 내놓기 때문)