강화 학습: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
잔글 →‎알고리즘: <math>
13번째 줄:
# 포상(<math>\in \Bbb{R} </math>) 의 집합;.
 
매 시점 t에<math>t</math>에 에이전트는 자신의 상태(state) <math>s_t \in S</math>와 가능한 행동(action) <math>A(s<sub>ts_t)</submath>)을 가지고 있다.

에이전트는 어떤 행동 a∈A(s<sub>t</sub>) 을 취하고, 환경으로부터 새로운 상태 s<sub>t+1</sub> 와 포상(reward) r<sub>t+1</sub> 을 받는다. 이 상호작용에 기반해서 강화 학습 에이전트는 누적된 포상값 R 을 최대화 하는 정책(policy) π:S→A 을 개발한다.

종료 상태(terminal state)가 존재하는 MDPs에서는 R=r<sub>0</sub>+r<sub>1</sub>+...+r<sub>n</sub> 이고, 그렇지 않은 MDPs에서는 R=Σ<sub>t</sub>γ<sup>t</sup>r<sub>t</sub> 가 된다. 여기서 γ 는 미래의 포상이 현재에 얼마나 가치 있는지를 표현하는 할인율(discount factor)로 0과 1사이의 값이다.
 
==응용==