2012년 2월 1일 (수) 11:42 판 편집 Minsbot (토론 \| 기여) 봇 3,985 편집 잔글 r2.7.2) (로봇이 더함: cs:Zpětnovazební učení ← 이전 편집		2012년 3월 28일 (수) 17:18 판 편집 편집 취소 175.252.239.43 (토론) 편집 요약 없음 다음 편집 →
1번째 줄: '''강화 학습'''(Reinforcement learning)은 [[기계 학습]]이 다루는 문제 중에서 다음과 같이 기술 되는 것을 다룬다. 어떤 '''환경'''을 탐색하는 '''에이전트'''가 현재의 '''상태'''를 인식하여 어떤 '''행동'''을 취한다. 그러면 그 에이전트는 환경으로부터 '''포상'''을 얻게 된다. 포상은 양수와 음수 둘 다 가능하다. 강화 학습의 알고리즘은 그 에이전트가 앞으로 누적될 포상을 최대화 하는 일련의 행동으로 정의되는 '''정책'''를을 찾는 방법이다. == 개요 ==

강화 학습: 두 판 사이의 차이