DQN1 DQN (Deep Q-Networks) 지금까지 우리가 배웠던 내용을 간단하게 정리해보자! 우리는 지금까지 Model을 알고 있는 경우를 Dynamic Planning으로 해결했으며, Model을 모르는 경우는 한 episode가 끝난 이후에 Return Function을 계산하는 Monte Carlo Method 나 일정한 Term을 주고 한 episode에 대해서 Return Function을 계산하는 TD Method 방법이 존재했다. 또한 우리는 어떤 특정 state일 때, 가지는 누적 reward, Return들의 기댓값을 말하는 Value function을 찾는 것이 목적이다. 이 Value Function은 어떤 특정 state일 때, 특정 action 을 선택할 확률인 Policy, $\pi$와 특정 state에서 action을.. 2020. 10. 3. 이전 1 다음