'2025/07/10 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록2025/07/10 (1)

ShuyaVision

[강화학습] REINFORCE, Actor-Critic

policy gradient 직관적 개념 정리1. REINFORCE 알고리즘강화학습은 no-data로 시작한다. Agent 가 데이터를 수집해온걸 바탕으로 학습을 진행한다. terminal-point 도 우리가 지정하는 것이다.어떤 Agent가 어떤 state에 놓이게 된다. 이 때 policy 를 통해 action을 output으로 받는다. REINFORCE algorithm은 policy를 학습하는게 목적이므로, policy의 paramter theta가 존재한다.(learnable paramter)이제, Agent는 trajectory(s, a의 연속 집합, episode 라고도 부름) 을 시작하면서 연속적으로 어떠한 행동을 한다. 이 때, 여기서 나온 모든 Reward(Reward 함수는 사전 정..

plusAlpha 2025. 7. 10. 12:22

이전 Prev 1 Next 다음

목록2025/07/10 (1)

ShuyaVision

티스토리툴바