본문 바로가기

ShuyaVision

검색하기
ShuyaVision
프로필사진 Sangbro

  • 분류 전체보기 (23)
    • Image processing (4)
    • Vision AI (12)
    • Computer Vision (0)
    • plusAlpha (4)
    • Stock Prediction (3)
Guestbook
Notice
Recent Posts
Recent Comments
Link
«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Tags
  • ai
  • transformer
  • vision
  • Self-Attention
more
Archives
Today
Total
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록2025/07/10 (1)

ShuyaVision

[강화학습] REINFORCE, Actor-Critic

policy gradient 직관적 개념 정리1. REINFORCE 알고리즘강화학습은 no-data로 시작한다. Agent 가 데이터를 수집해온걸 바탕으로 학습을 진행한다. terminal-point 도 우리가 지정하는 것이다.어떤 Agent가 어떤 state에 놓이게 된다. 이 때 policy 를 통해 action을 output으로 받는다. REINFORCE algorithm은 policy를 학습하는게 목적이므로, policy의 paramter theta가 존재한다.(learnable paramter)이제, Agent는 trajectory(s, a의 연속 집합, episode 라고도 부름) 을 시작하면서 연속적으로 어떠한 행동을 한다. 이 때, 여기서 나온 모든 Reward(Reward 함수는 사전 정..

plusAlpha 2025. 7. 10. 12:22
이전 Prev 1 Next 다음

Blog is powered by kakao / Designed by Tistory

티스토리툴바