베이즈 네트워크: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
Addbot (토론 | 기여)
잔글 봇: 인터위키 링크 22 개가 위키데이터d:q812540 항목으로 옮겨짐
Dongkyu Kim (토론 | 기여)
잔글 베이지안 네트워크 일부 내용 이동
1번째 줄:
'''베이즈 네트워크'''(bayesian{{lang|en|Bayesian network}}) 변수들의혹은 집합과'''신념 그들네트워크'''({{llang|en|belief 간의network}}) 확률적또는 의존성을'''방향성 나타내는비순환 그래픽 모델'''({{llang|en|directed acyclic graphical model}})은 랜덤 변수의 집합과 [[확률방향성 그래프비순환 모형그래프]]이다를 통하여 그 집합을 조건부 독립으로 표현하는 확률의 그래픽 모델이다. 일례로예를 베이즈들어, 베이지안 네트워크는 특정질환과 징후의증상 존재사이의 여부가확률관계를 주어질나타낼 환자에게있다. 특정증상이 질병이주어지면, 있는지의네트워크는 확률을다양한 계산하는질병의 존재 확률을 사용될계산할 수 있다. "베이즈 네트워크"라는 용어는 펄(Pearl)이 다음의 세 개 특징을 강조하면서 만들어졌다. (1) 입력 정보의 주관적인 특성, (2) 정보를 갱신하기 위한 기초로 베이지 조건에 의존함, (3) 추론의 원인과 증거 사이의 구분. 그리고, 이러한 것들은 [[토마스 베이즈]]의 1763년 논문에 기초하고 있다.
 
형식적으로, 베이즈 네트워크는 [[방향성 비순환 그래프]]로서, 그래프의 각 마디(node)는 변수를 나타내고, 마디를 연결하는 호(arc)는 변수 간의 조건부 의존성(conditional dependency)을 표현한다. 마디는 측정된 모수, [[잠재 변수]], 가설 등 어떤 종류의 변수든 표현할 수 있다.
5번째 줄:
베이즈 네트워크에서는 [[추론]]과 [[학습]]을 수행하기 위한 효과적인 알고리즘이 존재한다. [[음성 신호]]나 [[단백질 순열]]과 같은 일련의 변수를 모형화하는 베이지 네트워크를 [[동적 베이즈 네트워크]](dynamic Bayesian network)라고 부른다. 불확실성 하에 문제를 표현하고 해를 구할 수 있는 베이즈 네트워크의 일반화를 [[영향 다이어그램]]이라고 부른다.
 
==정의와 추론 개념==
베이즈 네트워크의 몇 가지 방정식 정의가 있다. ''G'' = (''V'',''E'')를 DAG라 하고, ''X'' = (''X''<sub>''v''</sub>)<sub>''v'' ∈ ''V''</sub>를 ''V''로 인덱싱된 랜덤변수의 집합이라고 하자.
베이즈 네트워크는 변수와 그들 간의 관계에 대한 완벽한 모형화이기 때문에, 변수들에 대한 확률적 질의에 답하는 데 사용될 수 있다.
 
===분해의 정의===
== 모수 학습 ==
X는 베이즈 네트워크이고, 그에 관련된 ''G''의 ([[곱 측도]](product measure)에 관련되는) 결합 확률 밀도 함수가 부모 변수로 조건화된 독립 밀도 함수의 곱으로 쓰인다면:
베이즈 네트워크를 완전히 명시하고, 결합 확률 본포를 완전히 표현하기 위해서는 ''X''의 부모 조건 하에서 ''X''의 확률 분포를 각 마디 ''X''에 대해 결정하여야 한다.
 
:<math> p (x) = \prod_{v \in V} p \big(x_v \,\big|\, x_{\operatorname{pa}(v)} \big) </math>
== 구조 학습 ==
단순한 경우라면, 베이즈 네트워크는 전문가에 의해 명시되어 추론을 수행하기 위해 사용될 수 있으나, 다른 응용에서는 인간이 네트워크를 정의하기에는 너무 복잡할 수 있다.
이러한 경우에 네트워크의 구조와 지역적 분포의 모수들은 자료로부터 학습되어야 한다.
 
여기서 pa(''v'')는 ''v''의 부모 집합이다.(i.e. those vertices pointing directly to ''v'' via a single edge).
베이즈 네트워크의 구조를 학습하는 것은 [[기계 학습]]의 매우 중요한 부분이다.
 
몇몇 랜덤 변수의 집합 때문에, 결합 분포의 몇몇 멤버의 확률은 다음에 따라 연쇄 법칙(chain rule)을 사용하여 조건부 확률로부터 계산될 수 있다.
 
:<math>\mathrm P(X_1=x_1, \ldots, X_n=x_n) = \prod_{v=1}^n \mathrm P(X_v=x_v \mid X_{v+1}=x_{v+1}, \ldots, X_n=x_n )</math>
 
위 정의를 이것과 비교하라.
 
:<math>\mathrm P(X_1=x_1, \ldots, X_n=x_n) = \prod_{v=1}^n \mathrm P(X_v=x_v \mid X_j=x_j </math> for each <math>X_j\,</math> which is a parent of <math> X_v\, )</math>
 
두 표현의 차이는, 부모 변수의 값이 주어졌을 때, 그것의 비 후손의 것으로부터 나온 변수와 조건부 독립이다.
 
===로컬 마르코프 속성===
''X''가 베이즈 네트워크이고, 그에 관련된 G가 ''로컬 마르코프 속성''(local Markov property)을 만족한다면, 각 변수는, 부모 변수가 주어졌을 때, 그것의 비 후손과 조건부 독립이다.
 
:<math> X_v \perp\!\!\!\perp X_{V \setminus \operatorname{de}(v)} \,|\, X_{\operatorname{pa}(v)} \quad\text{for all }v \in V</math>
 
여기서 de(''v'')는 ''v''의 자식 집합이다.
 
이것은 또한 다음과 같이 첫 번째 정의 항과 비슷한 표현이 될 수 있다.
 
:<math>\mathrm P(X_v=x_v \mid X_i=x_i </math> for each <math>X_i\,</math> which is not a descendent of <math> X_v\, ) = P(X_v=x_v \mid X_j=x_j </math> for each <math>X_j\,</math> which is a parent of <math> X_v\, )</math>
 
그래프가 비순환이기 때문에 부모 집합이 비 후손의 집합의 하위 집합이다.
 
===마르코프 블랭킷===
노드의 마르코프 블랭킷은 그 노드의 부모와 자식, 자식의 부모이다. ''X''가 베이즈 네트워크이고, 그와 관련된 ''G''는 [[마르코프 블랭킷]](Markov blanket)이 주어지면 모든 노드가 네트워크에서 모든 다른 노드에 조건부 독립이다.
 
==예==
잔디가 젖을 수 있는 두 가지 이벤트(스프링클러 혹은 비)가 있다고 하자. 또한, 비는 스프링클러의 사용과 같은 효과를 갖는다고 하자(비가 올 땐 보통 스프링클러를 끈다). 이 상황을 베이즈 네트워크로 표현 모델링할 수 있다. 모두 세 개의 변수가 T(true)와 F(false)로 두 개의 확률 값을 갖는다.
 
결합 확률 함수는 다음과 같다.
 
: <math>\mathrm P(G,S,R)=\mathrm P(G|S,R)\mathrm P(S|R)\mathrm P(R)</math>
 
여기서 ''G''는 잔디의 젖음을, ''S''는 스프링클러를, ''R''은 비를 간략화하여 표기한 것이다.
 
그 모델은 조건부확률식과 모든 장애 변수를 합함에 의하여 "잔디가 젖었다면 비였을 확률이 몇이냐?"는 질문에 답할 수 있다.
 
:<math> \mathrm P(\mathit{R}=T \mid \mathit{G}=T)
=\frac{\mathrm P(\mathit{G}=T,\mathit{R}=T)}{\mathrm P(\mathit{G}=T)}
=\frac{\sum_{\mathit{S} \in \{T, F\}}\mathrm P(\mathit{G}=T,\mathit{S},\mathit{R}=T)}{\sum_{\mathit{S}, \mathit{R} \in \{T, F\}} \mathrm P(\mathit{G}=T,\mathit{S},\mathit{R})}
</math>
::<math> = \frac{(0.99 \times 0.01 \times 0.2 = 0.00198_{TTT}) + (0.8 \times 0.99 \times 0.2 = 0.1584_{TFT})}{0.00198_{TTT} + 0.288_{TTF} + 0.1584_{TFT} + 0_{TFF}} \approx 35.77 %.</math>
 
예에서 분자를 명시적으로 가리킴으로써, 결합 확률 함수는 가중 함수의 각 반복을 계산하는데 사용된다. In the [[numerator]](분자) marginalizing over <math>\mathit{S}</math> and in the [[denominator]](분모) marginalizing over <math>\mathit{S}</math> and <math>\mathit{R}</math>.
 
다른 한편으로, 만약 우리가 "우리가 잔디가 젖게 했다면 비가 왔을 가능성은?"이라는 중재적인 질문(interventional question)에 답을 원한다면, 대답은 전부 중재 분포로부터 <math>\mathrm P(G|S,R)</math> 요소를 제거하여 얻은 후부 중재 결합 분포 함수(post-intervention joint distribution function) <math>\mathrm P(S,R|do(G=T)) = P(S|R) P(R)</math>에 의해 좌우된다. 기대한 것처럼, 비가 올 가능성은 행위에 의해 영향을 받지 않는다:<math>\mathrm P(R|do(G=T)) = P(R)</math>.
 
결합 분포에서 의존성이 희박하다면, 베이즈 네트워크의 사용은 상당한 양의 메모리를 절약할 수 있다. 예를 들어, 테이블에서 두 개의 값을 가질 수 있는 10개의 변수의 조건부 확률을 순수한 방법으로 저장한다면 <math>2^{10} = 1024</math>의 저장 공간이 필요하다. 만약 부모변수 3개 이상이 아무 변수에도 의존하지 않는 지역 분포를 갖는 다면, 베이즈 네트워크 표현은 최대 <math>10*2^3 = 80</math> 저장 공간만을 필요로 한다.
베이즈 네트워크의 한 가지 이점은 복잡한 결합 분포(complete joint distribution)보다 직접적인 의존성(a sparse set of direct dependecies)과 지역 분포(local distribution)를 사람이 이해하는데 직관적이라는 것이다.
 
== 응용 분야 ==
줄 36 ⟶ 85:
{{토막글|컴퓨터 과학}}
 
[[분류:베이즈 네트워크| 인공지능]]
[[분류:네트워크]]