Tag: Policy Iteration
-
[강화학습] Dynamic Programming
동적 프로그래밍은 MDP 모델을 활용하여 최적 해결책을 도출하는 프로그래밍 기술이다. 벨만 방정식을 이용하여 정책 평가 및 향상, 정책 반복, 가치 반복 등을 수행하여 최적의 정책을 찾는다.
동적 프로그래밍은 MDP 모델을 활용하여 최적 해결책을 도출하는 프로그래밍 기술이다. 벨만 방정식을 이용하여 정책 평가 및 향상, 정책 반복, 가치 반복 등을 수행하여 최적의 정책을 찾는다.