RL : Reinforcement Learning 사례

월곡동로봇팔 2020. 8. 30. 16:39

강화학습은 관찰, 행동, 보상 이렇게 3가지 스텝으로 알고리즘이 동작한다.

가장 보상이 큰 쪽으로 행동을 실행하도록 만들어진 알고리즘인 것이다.

이를 이용해서 정말 많은 분야에서 현재 적용되고 있다.

Game

알파고 & 알파고 제로 & 알파제로

흔히 아는 알파고이다.

알파고는 16만개의 기보를 학습하면서, 학습한 결과를 가지고 실제로 이세돌과의 대결에서 4:1로 불계승을 거두었다.

하지만, 이세돌에게 진 것도, 이세돌이 놓은 수가 알파고에게는 없는 데이터였기 때문에, 알파고는 없는 데이터에 대한 정보를 가지고 있지 못했고, 제대로 성능이 나오지 못해 패했다.

이를 DeepMind는 캐치하고 실제로 알파고 보다 더 좋은 알파고 제로를 선보인다.

구 알파고에 비해, 알파고 제로는 인간이 사전에 만들어놓은 데이터를 학습하는 것이 아닌, 스스로 바둑을 두고 원리를 깨달아간다. 인간이 데이터를 주지 않아도 스스로 학습하면서, 단순히 데이터를 학습하는 것이 아닌, 어떻게 해야 득점을 하는지에 대한 원리를 파악한다는 것이 포인트이다. 그리고 데이터 학습횟수도 기존보다 훨씬 적고, 학습시간, 컴퓨터 사양, 신경망의 복잡성 까지 모두 뛰어났다.

데브시스터즈 : 알파런

구현하는데 딥러닝(Deep Learning)과 강화학습 기술 8가지가 사용되었다.

로봇

보스턴 다이내믹스 : 아틀라스 (Atlas)
아틀라스는 소프트뱅크의 자회사 '보스턴 다이내믹스'가 제작한 휴머노이드 로봇이다.
복잡한 지형에서도 자동으로 자세를 유지하며, 보행 경로를 설정하여 보행 할 수 있고, 두 팔로 주위환경을 조작하는 것은 물론 넘어져도 직접 일어나고 물체까지 들어 올릴 수 있다는 사실 (!) 17년 11월 공개한 영상에서는 징검다리형 구조물을 뛰어서 건너기도 하고 높은 구조물에 올라서서 백 덤블링에 성공해 사람들을 놀라게 한 바가 있다.

금융

P모건 : LXOM
고객 주문을 최적의 가격으로 빠르게 실행하는 시스템
어떤 주식을 살 것인지 결정하는 기능은 없지만 , 강화학습을 이용하여 어떻게 사고팔지를 효과적으로 판단한다. 대규모 지분 매각 시점을 찾는데 탁월하며 많은 지분을 한 번에 팔 때 투자자가 손실을 최소화하고 최적의 이익을 취할 수 있는 가격대를 찾아준다.
유럽의 테스트에서는 LOXM에 의해 달성된 가격이 벤치마크보다 현저하게 우수함을 보여줬다. 또한, 고객이 동의한 경우 거래 방법을 결정할 때 고객 행동과 반응을 고려하는 부분까지 진화가 가능한 것으로 알려졌다.

자동차

현재 구글 / NVIDIA / 테슬라 등..회사가 자율주행차를 연구중이다.

국내 적용 사례

■ 네이버
- 네이버랩스를 연구법인으로 분사하여 생활 환경지능을 연구하고 있다.
2017년 3월 서울모터쇼에서 자율주행차를 처음으로 공개했고 10월에는 Deview 2017에서 생활 로봇 9종을 선보였다.

■ 카이스트
항공우주공학과 교수팀에서 개발한 자율주행차 '유레카 터보'가 임시운행허가증을 획득해서 2017년 1월부터 실제 도로에서 운행이 가능해졌다. 연구팀은 2009년부터 자율주행차 연구를 시작해서 자율주행차 5대를 성공적으로 개발했고 현재까지 캠퍼스 내에서 자율주행테스트를 진행하고 있는중이다.

■ SK텔레콤
2017년 초에 차량기술연구소를 만들어 자율주행차의 기반기술을 연구하고 있다. 7월에 국내 통신사 중에서 처음으로 자율주행 임시운행허가를 받아서 9월경 경부고속도로 약 26km구간에서 시험주행에 성공한 바 있다.

이만큼 강화학습이 여기저기 적용되고 있다.

실제로 신약개발, 기초과학 분야에서도 점점 많이 쓰이고 있다.

출처 :

m.blog.naver.com/PostView.nhn?blogId=sundooedu&logNo=221312907805&proxyReferer=https:%2F%2Fwww.google.com%2F

머신러닝의 한 분야 , 강화학습(Reinforcement Learning)적용 사례

오늘은 강화학습 기술에 적용되는 사례를 살펴볼까 한다. 기계학습 (Machine Learning)분야 중의 하나인 ...

blog.naver.com

연구방향:

brunch.co.kr/@kakao-it/296

2018 ICML을 통해 살펴보는 AI 연구 동향

[카카오AI리포트] 박찬연 | ICML(International Conference on Machine Learning)은 머신러닝(machine learning)과 딥러닝(deep learning) 분야에서 NIPS(Neural Information Processing Systems), ICLR(International Conference on Learning Represen

brunch.co.kr

제약:

m.biospectator.com/view/news_view.php?varAtcId=6314

'딥러닝+심층강화학습' 신약개발에 어떻게 적용할까

"심층강화학습(Deep Reinforcement learning)은 많은 과학자들이 동물 실험이나 임상에서의 질병 진행과 같이 시시각각 변화하는 동적인 상황을 원하

www.biospectator.com

저작자표시