강화 학습: 두 판 사이의 차이
내용 삭제됨 내용 추가됨
Gaepakchinae (토론 | 기여) 편집 요약 없음 |
Texvc2LaTeXBot (토론 | 기여) 잔글 mw:Extension:Math/Roadmap에 따라 사용되지 않는 수학 구문을 대체함 |
||
17번째 줄:
# 환경 상태 집합, <math>S</math>;
# 행동 집합, <math>A</math>;
# 포상(<math>\in \
매 시점 <math>t</math>에 에이전트는 자신의 상태(state) <math>s_t \in S</math>와 가능한 행동(action) <math>A(s_t)</math>를 가지고 있다.
|