목록2025/07/10 (1)
ShuyaVision

policy gradient 직관적 개념 정리1. REINFORCE 알고리즘강화학습은 no-data로 시작한다. Agent 가 데이터를 수집해온걸 바탕으로 학습을 진행한다. terminal-point 도 우리가 지정하는 것이다.어떤 Agent가 어떤 state에 놓이게 된다. 이 때 policy 를 통해 action을 output으로 받는다. REINFORCE algorithm은 policy를 학습하는게 목적이므로, policy의 paramter theta가 존재한다.(learnable paramter)이제, Agent는 trajectory(s, a의 연속 집합, episode 라고도 부름) 을 시작하면서 연속적으로 어떠한 행동을 한다. 이 때, 여기서 나온 모든 Reward(Reward 함수는 사전 정..
plusAlpha
2025. 7. 10. 12:22