贝尔曼方程详尽推导(无跳步|带图)

五点钟科技:

引用「= a∑​ s ′ ∑​ R ss ′ a​ P(a∣s)P(s ′ ∣s,a)+γ G t+1​」

这俩式子是怎么从上式换算过来的啊?能详细补充一下吗?博主

贝尔曼方程详尽推导(无跳步|带图)

人头狗:

好的明白啦。谢谢

贝尔曼方程详尽推导(无跳步|带图)

我说我糊涂:

就是两种符号一个含义,A_t == a. 后面不是用a来表示了吗,怕有人忘了它代表A_t

贝尔曼方程详尽推导(无跳步|带图)

人头狗:

请问 At/a这种形式是什么意思?