"강화 학습"의 두 판 사이의 차이

16 바이트 추가됨 ,  3년 전
잔글
편집 요약 없음
(서론 보강)
잔글
 
== 개요 ==
환경은기본적으로 일반적으로강화 학습의 유한상태문제는 [[마르코프 결정 프로세스과정]](MDP)으로 표현할 수 있다표현된다. 이런 관점에서 강화 학습 알고리즘은 [[동적 계획법]]과 깊은 연관이 있다. MDP에서마르코프 결정 과정에서 상태 전이 확률(state transition probabilities)와 포상은보상은 확률에 따른 값일 수도 있고, 이미 결정되어 있는 값일 수도 있다.
 
강화 학습이 원하지 않는 행동을 명시적으로 수정하는 [[지도 학습]]과 다른 점은 온라인 수행에 중심을 두고 있다는 점이다. 강화 학습은 아직 조사되지 않는 영역을 탐험하는 것과 이미 알고 있는 지식을 이용하는 것의 균형을 잡는 것이다. 이 탐험과 이용 사이에 있는 트레이드오프는 [[Multi-armed bandit]]과 같은 문제에서 알아 볼 수 있다.

편집

372