사용자:Suhyunjo/탐색-이용 딜레마

탐색-이용 딜레마 (탐색-이용 교체)는 다양한 분야에서 발생하는 의사 결정에서 기본적인 개념으로^[1] ^[2], 대치되는 두 가지 전략 사이에서 균형을 맞추는 행동으로 표현됩니다. 이용은 시스템이 현재 가진 지식에 기초해서 (불완전하거나 잘못된 방향으로 인도할 수도 있는) 최선의 선택을 하는 것을 말하는 반면, 탐색은 이용의 기회를 희생하더라도 앞으로의 나은 결과를 위해 새로운 방안을 시도해 보는 것을 말합니다. 이러한 두 가지 전략 사이에서 최선의 균형을 찾는 것은 장기적으로 이익을 극대화하는 것이 목표인 다양한 의사 결정 과정에서 중요한 문제입니다. ^[3]

기계 학습에 적용

탐색-이용 교체는 기계 학습의 한 종류인 강화 학습 (행위자가 환경으로부터의 피드백에 기초해서 의사 결정을 하도록 훈련시키는 기계 학습의 한 종류) 에서 중요합니다. 결정적으로 환경으로부터의 피드백이 불완전하거나 지연될 수 있으므로 ^[4], 행위자는 현재에 최선인 것을 선택할 것인지 성과를 향상시키기위해 새로운 것을 탐색해볼지 정해야 한다. 엡실론 탐욕, 톰슨 샘플링 및 신뢰 상한 과 같은 다양한 알고리즘이 이러한 문제를 해결하기 위해 개발되었습니다. [[분류:인지]] [[분류:전략]] [[분류:기계 학습]]

↑ Berger-Tal, Oded; Nathan, Jonathan; Meron, Ehud; Saltz, David (2014년 4월 22일). “The Exploration-Exploitation Dilemma: A Multidisciplinary Framework”. 《PLOS ONE》 9 (4): e95693. Bibcode:2014PLoSO...995693B. doi:10.1371/journal.pone.0095693. PMC 3995763. PMID 24756026.
↑ (영어). Palgrave Macmillan UK. |제목=이(가) 없거나 비었음 (도움말)
↑ Fruit, R. (2019). Exploration-exploitation dilemma in Reinforcement Learning under various form of prior knowledge (Doctoral dissertation, Université de Lille 1, Sciences et Technologies; CRIStAL UMR 9189).
↑ Richard S. Sutton; Andrew G. Barto (2020). Reinforcement Learning: An Introduction (2nd edition). http://incompleteideas.net/book/the-book-2nd.html

[1] Berger-Tal, Oded; Nathan, Jonathan; Meron, Ehud; Saltz, David (2014년 4월 22일). “The Exploration-Exploitation Dilemma: A Multidisciplinary Framework”. 《PLOS ONE》 9 (4): e95693. Bibcode:2014PLoSO...995693B. doi:10.1371/journal.pone.0095693. PMC 3995763. PMID 24756026.

[2] (영어). Palgrave Macmillan UK. |제목=이(가) 없거나 비었음 (도움말)

[3] Fruit, R. (2019). Exploration-exploitation dilemma in Reinforcement Learning under various form of prior knowledge (Doctoral dissertation, Université de Lille 1, Sciences et Technologies; CRIStAL UMR 9189).

[4] Richard S. Sutton; Andrew G. Barto (2020). Reinforcement Learning: An Introduction (2nd edition). http://incompleteideas.net/book/the-book-2nd.html

[1]

[2]

[3]

[4]