강화 학습: 두 판 사이의 차이

내용 삭제됨 내용 추가됨
어법에 맞지 않는 접속사 수정
태그: m 모바일 웹
7번째 줄:
 
== 개요 ==
기본적으로 강화 학습의 문제는 [[마르코프 결정 과정]](MDP)으로 표현된다. 이런 관점에서 강화 학습 알고리즘은 [[동적 계획법]]과 깊은 연관이 있다. 마르코프 결정 과정에서 상태 전이천이 확률(state transition probabilities)과 보상은 확률에 따른 값일 수도 있고, 이미 결정되어 있는 값일 수도 있다.
 
강화 학습이 원하지 않는 행동을 명시적으로 수정하는 [[지도 학습]]과 다른 점은 온라인 수행에 중심을 두고 있다는 점이다. 강화 학습은 아직 조사되지 않는 영역을 탐험하는 것과 이미 알고 있는 지식을 이용하는 것의 균형을 잡는 것이다. 이 탐험과 이용 사이에 있는 트레이드오프는 [[Multi-armed bandit]]과 같은 문제에서 알아 볼 수 있다.