2017년 5월 30일 (화) 17:06 판 편집 Lee Soon (토론 \| 기여) 점검 면제자, 장기인증된 사용자, 일괄 되돌리기 기능 사용자 50,686 편집 편집 요약 없음 ← 이전 편집		2017년 6월 11일 (일) 19:14 판 편집 편집 취소 YouKnowOne (토론 \| 기여) 216 편집 편집 요약 없음 다음 편집 →
1번째 줄: {{출처 필요\|날짜=2017-05-30}} '''Q-러닝'''은 모델 없이 학습하는 [[강화 학습]] ~~기법이다~~기법 가운데 하나이다. Q-러닝은 주어진 유한 [[마르코프 결정 과정]]의 최적의 정책을 찾기 위해 사용할 수 있다. 이는Q-러닝은 주어진 ~~state에서~~상태에서 주어진 ~~action을~~행동을 수행하는 것이 가져다 줄 효용의 기대값을 예측하는 함수인 Q 함수를 학습함으로써 최적의 정책을 학습한다. ~~여기서~~ 정책이란, 주어진 ~~state에서~~상태에서 어떤 ~~action을~~행동을 수행할지 나타내는 규칙이다. 위의 Q 함수를 학습하고나면 각 ~~state에서~~상태에서 최고의 Q를 주는 ~~action을~~행동을 수행함으로써 최적의 정책을 유도할 수 있다. Q-러닝의 장점 중 하나는 주어진 환경의 모델 없이도 수행하는 ~~action의~~행동의 ~~기대되는 가치를~~기대값을 비교할 수 있다는 점이다. 뿐만 아니라 Q-러닝은 ~~확률적~~ 전이가 확률적으로 일어나거나 ~~확률적~~보상이 ~~reward가~~확률적으로 주어지는 환경에서도 별다른 조작변형 없이 적용될 수 있다. Q-러닝은 임의의 유한 MDP에 대해서 현재 상태에서 최대의 보상을 획득하는 최적의 정책을 학습할 수 있다는 사실이 증명되어 있다. [[분류:기계 학습 알고리즘]]

Q 러닝: 두 판 사이의 차이