双重启发式规划(DHP)
DHP是一种估计代价函数梯度的方法,而不是代价J本身。为此,需要一个函数来描述瞬时代价函数相对于系统状态的梯度。在DHP的网络结构中,action网络和HDP的作用相同,都是生成控制信号,但是Critic网络不同,生成代价函数相对于状态的梯度。
双重启发式规划(DHP)
DHP是一种估计代价函数梯度的方法,而不是代价J本身。为此,需要一个函数来描述瞬时代价函数相对于系统状态的梯度。在DHP的网络结构中,action网络和HDP的作用相同,都是生成控制信号,但是Critic网络不同,生成代价函数相对于状态的梯度。