본문 바로가기

Momte Carlo Tree Search1

RL : Monte Carlo Tree Search (MCTS) 밑에는 알파고의 spec이다 Core Algorithm Deep Learning : Policy & Value MCTS : predict best condition CPU : 1000 operation / 1s simulation RL : find best action GPU : calculate state & predict next step Policy & Value : provide baseline of odds in expansion step 실제로 알파고는 ‘Policy Function’과 ‘Value Function’이라 불리는 2개의 신경망으로 구성되었는데, Policy Function이 다음 번 돌을 놓을 여러 경우의 수를 제시하면, Value Function은 그중 가장 적합한 한 가지 예.. 2020. 2. 25.

이전 1 다음

티스토리툴바