강화 학습: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
Minsbot (토론 | 기여)
잔글 r2.7.2) (로봇이 더함: cs:Zpětnovazební učení
편집 요약 없음
1번째 줄:
'''강화 학습'''(Reinforcement learning)은 [[기계 학습]]이 다루는 문제 중에서 다음과 같이 기술 되는 것을 다룬다. 어떤 '''환경'''을 탐색하는 '''에이전트'''가 현재의 '''상태'''를 인식하여 어떤 '''행동'''을 취한다. 그러면 그 에이전트는 환경으로부터 '''포상'''을 얻게 된다. 포상은 양수와 음수 둘 다 가능하다. 강화 학습의 알고리즘은 그 에이전트가 앞으로 누적될 포상을 최대화 하는 일련의 행동으로 정의되는 '''정책''' 찾는 방법이다.
 
== 개요 ==