일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 강화학습
- n-step
- Interpreter Lock
- Maximazation bias
- Few-shot learning
- Reinforcement Learning
- Tree backup
- 인터프리터 락
- Control variate
- Concurrency Control
- Double learning
- Maximum entropy
- Actor-Critic
- Global Interpreter Lock
- Python Interpreter Lock
- 전역 인터프리터 락
- Off-policy
- Meta Learning
- 중요도 샘플링
- 병행성 제어
- 오프폴리시
- 도커 텐서보드 연결
- 파이썬 인터프리터 락
- 통합 개발
- Importance sampling
- MAML
- docker tensorboard
- 온폴리시
- Soft Actor-Critic
- 지속적 개발
Archives
- Today
- Total
목록Soft Actor-Critic (1)
HakuCode na matata

Key Features SAC(Soft Actor-Critic)는 엔트로피 최대화 프레임워크 기반의 Off-policy Actor-Critic 알고리즘 SAC는 정책과 가치함수 근사를 기반으로 하는 Soft Policy Iteration알고리즘 SAC의 특징은 기존 RL 알고리즘들과 동일하게 보상의 기댓값을 최대화하면서 동시에 정보량이 적은(엔트로피가 높은) 정책을 구성하여 샘플의 다양성을 확보한다는 것 Background 실제 환경 적용에 있어서의 Model-free 알고리즘의 어려움 Model-free + On-policy 샘플 효율 저하(갱신 마다 샘플링 과정 필요) Model-free + Off-policy 연속적인 상태 및 행동 공간을 가진 과제에 대해 보이는 높은 샘플 복잡도 DDPG 샘플 효..
Machine Learning/Reinforcement Learning
2022. 6. 23. 02:08