"Q 러닝"의 두 판 사이의 차이

2 바이트 추가됨 ,  3년 전
잔글
편집 요약 없음
(알고리즘 설명 추가)
잔글
알고리즘은 각 상태-행동 쌍에 대하여 다음과 같은 Q 함수를 가진다.
 
:<math>Q: S \times A \to \mathbb{R}</math>
 
알고리즘이 시작되기 전에 Q 함수는 고정된 임의의 값을 가진다. 각 시간 <math>t</math>에 에이전트는 어떠한 상태 <math>s_t</math>에서 행동 <math>a_t</math>를 취하고 새로운 상태 <math>s_{t+1}</math>로 전이한다. 이 때 보상 <math>r_t</math>가 얻어지며, Q 함수가 갱신된다. 알고리즘의 핵심은 다음과 같이 이전의 값과 새 정보의 가중합(weighted sum)을 이용하는 간단한 [[마르코프 결정 과정|값 반복법]]이다.
 
:<math>Q(s_{t},a_{t}) \leftarrow (1-\alpha) \cdot \underbrace{Q(s_{t},a_{t})}_{\rm old~value} + \underbrace{\alpha}_{\rm learning~rate} \cdot \left( \overbrace{\underbrace{r_{t}}_{\rm reward} + \underbrace{\gamma}_{\rm discount~factor} \cdot \underbrace{\max_{a}Q(s_{t+1}, a)}_{\rm estimate~of~optimal~future~value}}^{\rm learned~value} \right)</math>
 
<math>\alpha</math>는 학습 속도 인자로, 0보다 크고 1보다 작거나 같은 값을 가진다.

편집

372