강화학습 적용1 RL : Reinforcement Learning 사례 강화학습은 관찰, 행동, 보상 이렇게 3가지 스텝으로 알고리즘이 동작한다. 가장 보상이 큰 쪽으로 행동을 실행하도록 만들어진 알고리즘인 것이다. 이를 이용해서 정말 많은 분야에서 현재 적용되고 있다. Game 알파고 & 알파고 제로 & 알파제로 흔히 아는 알파고이다. 알파고는 16만개의 기보를 학습하면서, 학습한 결과를 가지고 실제로 이세돌과의 대결에서 4:1로 불계승을 거두었다. 하지만, 이세돌에게 진 것도, 이세돌이 놓은 수가 알파고에게는 없는 데이터였기 때문에, 알파고는 없는 데이터에 대한 정보를 가지고 있지 못했고, 제대로 성능이 나오지 못해 패했다. 이를 DeepMind는 캐치하고 실제로 알파고 보다 더 좋은 알파고 제로를 선보인다. 구 알파고에 비해, 알파고 제로는 인간이 사전에 만들어놓은 데.. 2020. 8. 30. 이전 1 다음