'Maximazation bias' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Maximazation bias (1)

HakuCode na matata

하쿠's 강화학습 :: [Ch. VI] Temporal-Difference Learning

포스팅에 앞서 이 게시글은 Reference의 contents를 review하는 글임을 밝힌다. 「Temporal-Diffence Learning(TD학습)」 'Temporal-Difference Learning(이하 TD학습)'은 강화학습에서의 가장 핵심적인 아이디어라고 말할 수 있다. TD학습은 이전 포스트들에서 배운 DP와 MC의 장점들을 혼합하여 만든 방법이다. 아래의 표를 보자. 표에서 1번째 컬럼은 "환경에 대한 정보에 대해 완전히 알고 있는가?"에 대한 속성이다. 이전에 설명했다시피, DP는 환경에 대한 완전한 정보를 가지고 평가를 통해 계획을 세우는 'Planning'이라고 하였다. 반면, MC는 환경에 대한 불완전한 정보를 가지고 예측을 통해 학습하는 'Learning'이라고 하였다. T..

Machine Learning/Reinforcement Learning 2020. 10. 13. 12:31

Prev 1 Next

목록Maximazation bias (1)

HakuCode na matata

티스토리툴바