1.2.1 离散时间HJB方程_智能控制与强化学习：先进值迭代评判设计-QQ阅读女频现言网

上QQ阅读APP看书，第一时间看更新

1.2.1 离散时间HJB方程

考虑如下一类确定的、时不变的、离散时间非线性系统

其中，xk∈ Rn和uk∈ Rm分别为系统状态和控制输入，F∶Rn×Rm →Rn是系统函数。假设函数F（x,u）是Lipschitz连续的。假设原点x=0是系统（1-1）在u=0下的唯一平衡点，即F（0,0）=0。

定义 1-1 如果存在一个控制输入u∈ Rm使得对于任意的初始状态x0∈Ω,当k→∞时,xk→0,则这个非线性动态系统在紧集Ω⊂Rn上是可镇定的。

对于无折扣最优调节问题，定义无限时域的代价函数为

其中，U（x,u）≥0是相对于x和u的效用函数，且U（0,0）=0。一般地，效用函数可以为二次型形式U（x,u）=xTQx+uTRu,其中，Q∈ Rn×n和R∈ Rm×m是正定矩阵。期望找到一个最优状态反馈控制律u*（x）,不仅能够在Ω上镇定被控系统（1-1），而且能够保证代价函数（1-2）是有限的，即u*（x）是一个容许控制律。

定义 1-2 如果满足以下条件：u（x）在集合Ω上是连续的；u（x）在集合Ω上镇定系统（1-1）；对于所有的x0∈Ω,J（x0）是有限的；u（0）=0,则这个状态反馈控制律u（x）对于代价函数（1-2）在集合Ω上是容许的。

为了进一步说明代价函数，式（1-2）可以写为

根据 Bellman 最优性原理，最优代价函数是时不变的，并且满足以下离散时间HJB方程

其中，最优控制律可通过式（1-5）求解

注意，最优控制律满足一阶必要条件，该条件可由式（1-4）右侧部分关于uk的偏导数给出，即

于是，进一步得到

作为一类特例，具有输入仿射形式的离散时间非线性系统（1-1）表示为

其中，f ∶Rn→Rn和g ∶Rn→Rn ×m是系统函数，f（0）=0。针对非线性仿射系统，式（1-7）中的最优控制律可以写为

当仿射系统中的函数g（x）已知时,可以避免求解∂xk+1/∂uk。然而，大多数非线性系统通常为非仿射形式或系统模型未知，这需要建立模型网络近似求解∂xk+1/∂uk。

注意到J*（x）存在于式（1-4）的两边，这意味着 HJB 方程无法直接求解。于是，学者们提出一些先进的基于评判学习机制的VI算法，用于数值求解HJB方程，进而获得非线性系统的近似最优控制律。