动态规划的理论模型

                                                       动态规划 Dynamic Programming

by Starfish

【摘要】

本文介绍了动态规划的基本思想和基本步骤，通过实例研究了利用动态规划设计算
法的具体途径，讨论了动态规划的一些实现技巧，并将动态规划和其他一些算法作
了比较，最后还简单介绍了动态规划的数学理论基础和当前最新的研究成果。

（说明：这是我中学时候写的一篇小论文，因为公式和图比较多，
为了能在bbs上贴出来做了不少删节）

【目录】
一。引言
二。动态规划的基本思想
三。动态规划算法的基本步骤
四。动态规划的适用条件
五。动态规划的实例分析
六。动态规划的技巧——阶段的划分和状态的表示
七。动态规划实现中的问题
八。动态规划与其他算法的比较
九。动态规划的理论模型

一。引言

动态规划(dynamic programming)是运筹学的一个分支，是求解决策过程(decision
process)最优化的数学方法。20世纪50年代初美国数学家R.E.Bellman等人在研究
多阶段决策过程(multistep decision process)的优化问题时，提出了著名的最优
化原理(principle of optimality)，把多阶段过程转化为一系列单阶段问题，逐
个求解，创立了解决这类过程优化问题的新方法——动态规划。1957年出版了他的
名著Dynamic Programming，这是该领域的第一本著作。

动态规划问世以来，在经济管理、生产调度、工程技术和最优控制等方面得到了广
泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题，
用动态规划方法比用其它方法求解更为方便。

虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题，但是一些与时
间无关的静态规划(如线性规划、非线性规划)，只要人为地引进时间因素，把它视
为多阶段决策过程，也可以用动态规划方法方便地求解。

二。动态规划的基本思想

一般来说，只要问题可以划分成规模更小的子问题，并且原问题的最优解中包含了
子问题的最优解（即满足最优子化原理），则可以考虑用动态规划解决。

动态规划的实质是分治思想和解决冗余，因此，动态规划是一种将问题实例分解为
更小的、相似的子问题，并存储子问题的解而避免计算重复的子问题，以解决最优
化问题的算法策略。

由此可知，动态规划法与分治法和贪心法类似，它们都是将问题实例归纳为更小的
、相似的子问题，并通过求解子问题产生一个全局最优解。其中贪心法的当前选择
可能要依赖已经作出的所有选择，但不依赖于有待于做出的选择和子问题。因此贪
心法自顶向下，一步一步地作出贪心选择；而分治法中的各个子问题是独立的 (即
不包含公共的子子问题)，因此一旦递归地求出各子问题的解后，便可自下而上地
将子问题的解合并成问题的解。但不足的是，如果当前选择可能要依赖子问题的解
时，则难以通过局部的贪心策略达到全局最优解；如果各子问题是不独立的，则分
治法要做许多不必要的工作，重复地解公共的子问题。

解决上述问题的办法是利用动态规划。该方法主要应用于最优化问题，这类问题会
有多种可能的解，每个解都有一个值，而动态规划找出其中最优(最大或最小)值的
解。若存在若干个取最优值的解的话，它只取其中的一个。在求解过程中，该方法
也是通过求解局部子问题的解达到全局最优解，但与分治法和贪心法不同的是，动
态规划允许这些子问题不独立，(亦即各子问题可包含公共的子子问题)也允许其通
过自身子问题的解作出选择，该方法对每一个子问题只解一次，并将结果保存起来
，避免每次碰到时都要重复计算。

因此，动态规划法所针对的问题有一个显著的特征，即它所对应的子问题树中的子
问题呈现大量的重复。动态规划法的关键就在于，对于重复出现的子问题，只在第
一次遇到时加以求解，并把答案保存起来，让以后再遇到时直接引用，不必重新求
解。

三。动态规划算法的基本步骤

设计一个标准的动态规划算法，通常可按以下几个步骤进行：

1。划分阶段：按照问题的时间或空间特征，把问题分为若干个阶段。注意这若干
个阶段一定要是有序的或者是可排序的（即无后向性），否则问题就无法用动态规
划求解。
2。选择状态：将问题发展到各个阶段时所处于的各种客观情况用不同的状态表示
出来。当然，状态的选择要满足无后效性。
确定决策并写出状态转移方程：之所以把这两步放在一起，是因为决策和状态转移
有着天然的联系，状态转移就是根据上一阶段的状态和决策来导出本阶段的状态。
所以，如果我们确定了决策，状态转移方程也就写出来了。但事实上，我们常常是
反过来做，根据相邻两段的各状态之间的关系来确定决策。
3。写出规划方程（包括边界条件）：动态规划的基本方程是规划方程的通用形式
化表达式。一般说来，只要阶段、状态、决策和状态转移确定了，这一步还是比较
简单的。

动态规划的主要难点在于理论上的设计，一旦设计完成，实现部分就会非常简单。
根据动态规划的基本方程可以直接递归计算最优值，但是一般将其改为递推计算，
实现的大体上的框架如下：

标准动态规划的基本框架

对fn+1(xn+1)初始化;                              △ 处理边界条件
for k ← n downto 1 do
   for 每一个xk∈Xk do
      for 每一个uk∈Uk(xk)
          do fk(xk) ← 一个极值                  △ ∞或－∞
             xk+1   ← Tk(xk,uk)                 △ 状态转移方程
             t      ← φ(fk+1(xk+1), vk(xk,uk)) △ 基本方程(9)式
             if t比fk(xk)更优
                then fk(xk) ← t                 △ 计算fk(xk)的最优值

t ← 一个极值                                    △ ∞或－∞
for 每一个x1∈X1
do if f1(x1)比t更优
       then t ← f1(x1)                          △ 按照10式求出最优指标

输出t;

但是，实际应用当中经常不显式地按照上面步骤设计动态规划，而是按以下几个步
骤进行：

1。分析最优解的性质，并刻划其结构特征。
2。递归地定义最优值。
3。以自底向上的方式或自顶向下的记忆化方法（备忘录法）计算出最优值。
4。根据计算最优值时得到的信息，构造一个最优解。

步骤(1)--(3)是动态规划算法的基本步骤。在只需要求出最优值的情形，步骤(4)
可以省略，若需要求出问题的一个最优解，则必须执行步骤(4)。此时，在步骤
(3)中计算最优值时，通常需记录更多的信息，以便在步骤(4)中，根据所记录的信
息，快速地构造出一个最优解。

四。动态规划的适用条件

任何思想方法都有一定的局限性，超出了特定条件，它就失去了作用。同样，动态
规划也并不是万能的。适用动态规划的问题必须满足最优化原理和无后效性。

1.最优化原理（最优子结构性质）
最优化原理可这样阐述：一个最优化策略具有这样的性质，不论过去状态和决策如
何，对前面的决策所形成的状态而言，余下的诸决策必须构成最优策略。简而言之
，一个最优化策略的子策略总是最优的。一个问题满足最优化原理又称其具有最优
子结构性质。

例如图2中，若路线I和J是A到C的最优路径，则根据最优化原理，路线J必是从B到
C的最优路线。这可用反证法证明：假设有另一路径J'是B到C的最优路径，则A到C
的路线取I和J'比I和J更优，矛盾。从而证明J'必是B到C的最优路径。

最优化原理是动态规划的基础，任何问题，如果失去了最优化原理的支持，就不可
能用动态规划方法计算。动态规划的最优化理在其指标函数的可分离性和单调性中
得到体现。根据最优化原理导出的动态规划基本方程是解决一切动态规划问题的基
本方法。

2.无后向性

将各阶段按照一定的次序排列好之后，对于某个给定的阶段状态，它以前各阶段的
状态无法直接影响它未来的决策，而只能通过当前的这个状态。换句话说，每个状
态都是过去历史的一个完整总结。这就是无后向性，又称为无后效性。

有些问题乍一看好像有后向性，但如果按照某种合理的方式重新划分阶段，就可以
发现其本质上是无后向性的，所以关键是阶段的合理划分，这一点将在动态规划的
技巧中详细阐述。

3.子问题的重叠性

动态规划可以将原来具有指数级复杂度的搜索算法改进成具有多项式时间的算法。
其中的关键在于解决冗余，这是动态规划算法的根本目的。动态规划实质上是一种
以空间换时间的技术，它在实现的过程中，不得不存储产生过程中的各种状态，所
以它的空间复杂度要大于其它的算法。以Bitonic旅行路线问题为例，这个问题也
可以用搜索算法来解决。动态规划的时间复杂度为O(n^2)，搜索算法的时间复杂度
为O(n!) ，但从空间复杂度来看，动态规划算法为O(n^2)，而搜索算法为O(n)，搜
索算法反而优于动态规划算法。选择动态规划算法是因为动态规划算法在空间上可
以承受，而搜索算法在时间上却无法承受，所以我们舍空间而取时间。

设原问题的规模为n，容易看出，当子问题树中的子问题总数是n的超多项式函数，
而不同的子问题数只是n的多项式函数时，动态规划法显得特别有意义，此时动态
规划法具有线性时间复杂性。所以，能够用动态规划解决的问题还有一个显著特征
：子问题的重叠性。这个性质并不是动态规划适用的必要条件，但是如果该性质无
法满足，动态规划算法同其他算法相比就不具备优势。

五。动态规划的实例分析

（因为图较多，略）

六。动态规划的技巧——阶段的划分和状态的表示

在动态规划的设计过程中，阶段的划分和状态的表示是非常重要的两步，这两步会
直接影响该问题的计算复杂性，有时候阶段划分或状态表示的不合理还会使得动态
规划法不适用。

（下面的几个例子图较多，这里从略）

有很多的多阶段决策问题都有着不止一种的阶段划分方法，因而往往就有不止一种
的规划方法。有时各种方法所产生的效果是差不多的，但更多的时候，就像我们的
例子一样，两种方法会在某个方面有些区别。所以，在用动态规划解题的时候，可
以多想一想是否有其它的解法。对于不同的解法，要注意比较，好的算法好在哪里
，差一点的算法差在哪里。从各种不同算法的比较中，我们可以更深刻地领会动态
规划的构思技巧。

七。动态规划实现中的问题

应用动态规划解决问题，在有了基本的思路之后，一般来说，算法实现是比较好考
虑的。但有时也会遇到一些问题，而使算法难以实现。动态规划思想设计的算法从
整体上来看基本都是按照得出的递推关系式进行递推，这种递推相对于计算机来说
，只要设计得当，效率往往是比较高的，这样在时间上溢出的可能性不大，而相反
地，动态规划需要很大的空间以存储中间产生的结果，这样可以使包含同一个子问
题的所有问题共用一个子问题解，从而体现动态规划的优越性，但这是以牺牲空间
为代价的，为了有效地访问已有结果，数据也不易压缩存储，因而空间矛盾是比较
突出的。另一方面，动态规划的高时效性往往要通过大的测试数据体现出来（以与
搜索作比较），因而，对于大规模的问题如何在基本不影响运行速度的条件下，解
决空间溢出的问题，是动态规划解决问题时一个普遍会遇到的问题。

对于这个问题，可以考虑从以下一些方面去尝试：

一个思考方向是尽可能少占用空间。如从结点的数据结构上考虑，仅仅存储必不可
少的内容，以及数据存储范围上精打细算(按位存储、压缩存储等)。当然这要因问
题而异，进行分析。另外，在实现动态规划时，一个我们经常采用的方法是用一个
与结点数一样多的数组来存储每一步的决策，这对于倒推求得一种实现最优解的方
法是十分方便的，而且处理速度也有一些提高。但是在内存空间紧张的情况下，我
们就应该抓住问题的主要矛盾。省去这个存储决策的数组，而改成在从最优解逐级
倒推时，再计算一次，选择某个可能达到这个值的上一阶段的状态，直到推出结果
为止。这样做，在程序编写上比上一种做法稍微多花一点时间，运行的时效也可能
会有一些(但往往很小)的下降，但却换来了很多的空间。因而这种思想在处理某些
问题时，是很有意义的。

但有时，即使采用这样的方法也会发现空间溢出的问题。这时就要分析，这些保留
下来的数据是否有必要同时存在于内存之中。因为有很多问题，动态规划递推在处
理后面的内容时，前面比较远处的内容实际上是用不着的。对于这类问题，在已经
确信不会再被使用的数据上覆盖数据，从而使空间得以重复利用，如果能有效地使
用这一手段，对于相当大规模的问题，空间也不至于溢出（为了求出最优方案，保
留每一步的决策仍是必要的，这同样需要空间）。

一般地说，这种方法可以通过两种思路来实现：一种是递推结果仅使用Data1和
Data2这样两个数组，每次将Data1作为上一阶段，推得Data2数组，然后，将
Data2通过复制覆盖到Data1之上，如此反复，即可推得最终结果。这种做法有一个
局限性，就是对于递推与前面若干阶段相关的问题，这种做法就比较麻烦；而且，
每递推一级，就需要复制很多的内容，与前面多个阶段相关的问题影响更大。另外
一种实现方法是，对于一个可能与前N个阶段相关的问题，建立数组Data[0..N]，
其中各项为最近N各阶段的保存数据。这样不采用这种内存节约方式时对于阶段k的
访问只要对应成对数组Data中下标为k mod (N+1)的单元的访问就可以了。这种处
理方法对于程序修改的代码很少，速度几乎不受影响，而且需要保留不同的阶段数
也都能很容易实现。

当采用以上方法仍无法解决内存问题时，也可以采用对内存的动态申请来使绝大多
数情况能有效出解。而且，使用动态内存还有一点好处，就是在重复使用内存而进
行交换时，可以只对指针进行交换，而不复制数据，这在实践中也是十分有效的。

八。动态规划与其他算法的比较

动态规划与其说是一种算法，不如说是一种算法设计的策略，他的基本思想体现于
许多其它算法之中。下面我们通过比较动态规划和其他的一些算法之间的相互联系
，来深入理解动态规划的基本思想。

1。动态规划与静态规划——某些情况下可以相互转化
2。动态规划与递推——动态规划是最优化算法
3。动态规划与搜索——动态规划是高效率、高消费算法
4。动态规划与网络流——动态规划是易设计易实现算法

九。动态规划的理论模型

在动态规划算法发展的初期，Bellman从纯粹的逻辑出发给出了最优性原理
--Principle of Optimality:

"An optimal policy has the property that whatever the initial state
and initial decision are, then remaining decisions must constitute an
optimal policy with regard to the state resulting from first decision.
"

他给出这个原理作为动态规划适用的条件，后来Morin在1982年证明了这只是一个
充分条件而非必要条件。

动态规划开始只是应用于多阶段决策性问题，后来渐渐被发展为解决离散最优化问
题的有效手段，进一步应用于一些连续性问题上。然而，动态规划更像是一种思想
而非算法，它没有固定的数学模型，没有固定的实现方法，其正确性也缺乏严格的
理论证明。因此，一直以来动态规划的数学理论模型是一个研究的热点。

目前比较流行的主要有两种理论模型：关系计算模型(relational calculus
model)和估价网络模型(valuation network model)。

关于这两种流行理论，感兴趣的朋友可以参看以下论文：

关系计算模型:
Sharon Curtis , Dynamic Programming: a different perspective

估价网络模型:
Prakash P. Shenoy, AXIOMS FOR DYNAMIC PROGRAMMING

【参考文献】

[1]Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford
Stein, Introduction to algorithms, Second Edition, The MIT Press, 2001
[2]傅清祥, 王晓东, 算法与数据结构，电子工业出版社,1998
[3]现代应用数学手册——运筹学与最优化理论卷，清华大学出版社，1998
[4]张莹, 运筹学基础，清华大学出版社，1995
[5]Paul E. Black, Dictionary of Algorithms, Data Structures, and
Problems ，http://hissa.nist.gov/dads/, 下载该网站的镜像（1,682KB）
[6]方奇, 动态规划, 中国NOI国家集训队论文集
[7]来煜坤, 把握本质，灵活运用——动态规划的深入探讨，中国NOI国家集训队
论文集
[8]李刚, 动态规划的深入讨论，中国NOI国家集训队论文集
[9]张辰, 动态规划的特点及其应用，中国NOI国家集训队论文集
[10]Prakash P. Shenoy ,AXIOMS FOR DYNAMIC PROGRAMMING , 1996
[11]Sharon Curtis, Dynamic Programming: a different perspective

posted on 2006-01-12 12:02 Welfare 阅读(4810) 评论(2) 收藏举报

刷新页面返回顶部

Welfare

动态规划的理论模型

导航

公告