강화 학습: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
잔글 →‎알고리즘: \sum
Shirobot (토론 | 기여)
잔글 白:사:Ysjbserver요청으로 {{주석}}을 {{각주}}로 바꿈 total:18220, replaced: {{주석 → {{각주 using AWB
13번째 줄:
# 포상(<math>\in \Bbb{R} </math>)의 집합;.
 
매 시점 <math>t</math>에 에이전트는 자신의 상태(state) <math>s_t \in S</math>와 가능한 행동(action) <math>A(s_t)</math>를 가지고 있다.
 
에이전트는 어떤 행동 ''a'' ∈ ''A''(''s''<sub>''t''</sub>) 을 취하고, 환경으로부터 새로운 상태 ''s''<sub>''t''+1</sub>와 포상(reward) ''r''<sub>''t''+1</sub>을 받는다. 이 상호작용에 기반해서 강화 학습 에이전트는 누적된 포상값 ''R''을 최대화 하는 정책(policy) π: ''S''→''A''을 개발한다.
 
종료 상태(terminal state)가 존재하는 MDPs에서는 <math>R=r_0+r_1+\cdots+r_n = \sum_{t=1}^n r_t</math>이고, 그렇지 않은 MDPs에서는 <math>R = \sum_{t=1}^n \gamma^t r_t</math>가 된다. 여기서 ''γ''는 미래의 포상이 현재에 얼마나 가치 있는지를 표현하는 할인율(discount factor)로 0과 1사이의 값이다.
26번째 줄:
* [[오류기반 학습]]
== 주석==
{{주석각주}}
 
==바깥 링크==