강화학습2 RL : Reinforcement Learning 사례 강화학습은 관찰, 행동, 보상 이렇게 3가지 스텝으로 알고리즘이 동작한다. 가장 보상이 큰 쪽으로 행동을 실행하도록 만들어진 알고리즘인 것이다. 이를 이용해서 정말 많은 분야에서 현재 적용되고 있다. Game 알파고 & 알파고 제로 & 알파제로 흔히 아는 알파고이다. 알파고는 16만개의 기보를 학습하면서, 학습한 결과를 가지고 실제로 이세돌과의 대결에서 4:1로 불계승을 거두었다. 하지만, 이세돌에게 진 것도, 이세돌이 놓은 수가 알파고에게는 없는 데이터였기 때문에, 알파고는 없는 데이터에 대한 정보를 가지고 있지 못했고, 제대로 성능이 나오지 못해 패했다. 이를 DeepMind는 캐치하고 실제로 알파고 보다 더 좋은 알파고 제로를 선보인다. 구 알파고에 비해, 알파고 제로는 인간이 사전에 만들어놓은 데.. 2020. 8. 30. RL : Monte Carlo Tree Search (MCTS) 밑에는 알파고의 spec이다 Core Algorithm Deep Learning : Policy & Value MCTS : predict best condition CPU : 1000 operation / 1s simulation RL : find best action GPU : calculate state & predict next step Policy & Value : provide baseline of odds in expansion step 실제로 알파고는 ‘Policy Function’과 ‘Value Function’이라 불리는 2개의 신경망으로 구성되었는데, Policy Function이 다음 번 돌을 놓을 여러 경우의 수를 제시하면, Value Function은 그중 가장 적합한 한 가지 예.. 2020. 2. 25. 이전 1 다음