2018년 4월 26일 (목) 14:41 판 편집 112.169.217.122 (토론) 어법에 맞지 않는 접속사 수정 태그: 시각 편집 ← 이전 편집		2018년 7월 11일 (수) 15:10 판 편집 편집 취소 223.62.11.127 (토론) →‎개요 태그: m 모바일 웹 다음 편집 →
7번째 줄: == 개요 == 기본적으로 강화 학습의 문제는 [[마르코프 결정 과정]](MDP)으로 표현된다. 이런 관점에서 강화 학습 알고리즘은 [[동적 계획법]]과 깊은 연관이 있다. 마르코프 결정 과정에서 상태 전이천이 확률(state transition probabilities)과 보상은 확률에 따른 값일 수도 있고, 이미 결정되어 있는 값일 수도 있다. 강화 학습이 원하지 않는 행동을 명시적으로 수정하는 [[지도 학습]]과 다른 점은 온라인 수행에 중심을 두고 있다는 점이다. 강화 학습은 아직 조사되지 않는 영역을 탐험하는 것과 이미 알고 있는 지식을 이용하는 것의 균형을 잡는 것이다. 이 탐험과 이용 사이에 있는 트레이드오프는 [[Multi-armed bandit]]과 같은 문제에서 알아 볼 수 있다.

강화 학습: 두 판 사이의 차이