강화 학습: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
편집 요약 없음
잔글 mw:Extension:Math/Roadmap에 따라 사용되지 않는 수학 구문을 대체함
17번째 줄:
# 환경 상태 집합, <math>S</math>;
# 행동 집합, <math>A</math>;
# 포상(<math>\in \Bbbmathbb{R} </math>)의 집합;.
 
매 시점 <math>t</math>에 에이전트는 자신의 상태(state) <math>s_t \in S</math>와 가능한 행동(action) <math>A(s_t)</math>를 가지고 있다.