강화 학습: 두 판 사이의 차이
내용 삭제됨 내용 추가됨
어법에 맞지 않는 접속사 수정 |
태그: m 모바일 웹 |
||
7번째 줄:
== 개요 ==
기본적으로 강화 학습의 문제는 [[마르코프 결정 과정]](MDP)으로 표현된다. 이런 관점에서 강화 학습 알고리즘은 [[동적 계획법]]과 깊은 연관이 있다. 마르코프 결정 과정에서 상태
강화 학습이 원하지 않는 행동을 명시적으로 수정하는 [[지도 학습]]과 다른 점은 온라인 수행에 중심을 두고 있다는 점이다. 강화 학습은 아직 조사되지 않는 영역을 탐험하는 것과 이미 알고 있는 지식을 이용하는 것의 균형을 잡는 것이다. 이 탐험과 이용 사이에 있는 트레이드오프는 [[Multi-armed bandit]]과 같은 문제에서 알아 볼 수 있다.
|