강화 학습: 두 판 사이의 차이
내용 삭제됨 내용 추가됨
잔글 →알고리즘 |
잔글 →알고리즘: <math> |
||
13번째 줄:
# 포상(<math>\in \Bbb{R} </math>) 의 집합;.
매 시점
에이전트는 어떤 행동 a∈A(s<sub>t</sub>) 을 취하고, 환경으로부터 새로운 상태 s<sub>t+1</sub> 와 포상(reward) r<sub>t+1</sub> 을 받는다. 이 상호작용에 기반해서 강화 학습 에이전트는 누적된 포상값 R 을 최대화 하는 정책(policy) π:S→A 을 개발한다. 종료 상태(terminal state)가 존재하는 MDPs에서는 R=r<sub>0</sub>+r<sub>1</sub>+...+r<sub>n</sub> 이고, 그렇지 않은 MDPs에서는 R=Σ<sub>t</sub>γ<sup>t</sup>r<sub>t</sub> 가 된다. 여기서 γ 는 미래의 포상이 현재에 얼마나 가치 있는지를 표현하는 할인율(discount factor)로 0과 1사이의 값이다. ==응용==
|