| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
Tags
- Maximum entropy
- 강화학습
- Interpreter Lock
- 지속적 개발
- 병행성 제어
- Control variate
- Soft Actor-Critic
- Few-shot learning
- Maximazation bias
- MAML
- 도커 텐서보드 연결
- Concurrency Control
- Actor-Critic
- Importance sampling
- 온폴리시
- Reinforcement Learning
- Tree backup
- 오프폴리시
- Global Interpreter Lock
- 통합 개발
- Python Interpreter Lock
- 전역 인터프리터 락
- n-step
- Double learning
- 중요도 샘플링
- 파이썬 인터프리터 락
- 인터프리터 락
- Meta Learning
- docker tensorboard
- Off-policy
Archives
- Today
- Total
목록Maximazation bias (1)
HakuCode na matata
포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Temporal-Diffence Learning(TD학습)」 'Temporal-Difference Learning(이하 TD학습)'은 강화학습에서의 가장 핵심적인 아이디어라고 말할 수 있다. TD학습은 이전 포스트들에서 배운 DP와 MC의 장점들을 혼합하여 만든 방법이다. 아래의 표를 보자. 표에서 1번째 컬럼은 "환경에 대한 정보에 대해 완전히 알고 있는가?"에 대한 속성이다. 이전에 설명했다시피, DP는 환경에 대한 완전한 정보를 가지고 평가를 통해 계획을 세우는 'Planning'이라고 하였다. 반면, MC는 환경에 대한 불완전한 정보를 가지고 예측을 통해 학습하는 'Learning'이라고 하였다. T..
Machine Learning/Reinforcement Learning
2020. 10. 13. 12:31