2014년 12월 23일 (화) 10:12 판 편집 Cedar101 (토론 \| 기여) 장기인증된 사용자 13,379 편집 잔글 →‎알고리즘 ← 이전 편집		2014년 12월 23일 (화) 10:16 판 편집 편집 취소 Cedar101 (토론 \| 기여) 장기인증된 사용자 13,379 편집 잔글 →‎알고리즘: <math> 다음 편집 →
13번째 줄: # 포상(<math>\in \Bbb{R} </math>) 의 집합;. 매 시점 t에<math>t</math>에 에이전트는 자신의 상태(state) <math>s_t \in S</math>와 가능한 행동(action) <math>A(~~s<sub>t~~s_t)</~~sub~~math>)을를 가지고 있다. 에이전트는 어떤 행동 a∈A(s<sub>t</sub>) 을 취하고, 환경으로부터 새로운 상태 s<sub>t+1</sub> 와 포상(reward) r<sub>t+1</sub> 을 받는다. 이 상호작용에 기반해서 강화 학습 에이전트는 누적된 포상값 R 을 최대화 하는 정책(policy) π:S→A 을 개발한다. 종료 상태(terminal state)가 존재하는 MDPs에서는 R=r<sub>0</sub>+r<sub>1</sub>+...+r<sub>n</sub> 이고, 그렇지 않은 MDPs에서는 R=Σ<sub>t</sub>γ<sup>t</sup>r<sub>t</sub> 가 된다. 여기서 γ 는 미래의 포상이 현재에 얼마나 가치 있는지를 표현하는 할인율(discount factor)로 0과 1사이의 값이다. ==응용==

강화 학습: 두 판 사이의 차이