![](http://cover.yuntu.io/73/8/9787560608303.jpg)
微信扫一扫,移动浏览光盘
简介
马尔可夫决策过程是研究随机环境下多阶段决策过程优化问题的理论工具,在过去的几十年中,随着生态科学、经济理论、通讯工程以及众多学科中需要考虑不确定因素和序列决策问题的大量新模型的涌现,进一步刺激了马尔可夫决策过程在理论上和应用领域中长足发展。本书从简单的例子开始,介绍了马尔可夫决策过程的基本概念、决策过程以及一些常用的基本理论。还介绍了多种最优准则,包括有限阶段准则、折扣准则、平均准则、权重报酬准则、概率准则等。从模型角度考虑了有限状态空间、可数状态空间和一般Borel状态空间;从决策时间上来说,考虑了离散时间、连续时间和半马氏决策时刻问题。本文还介绍了大量的应用实例以及建模方法。本书可作为高年级大学和研究生教材,也可作为运筹学、管理科学、信息科学、系统科学以及计算机科学和工程领域的学者和技术人员的参考书。
目录
第1章 引 论 (1)
1.1 离散时间马尔可夫决策过程模型 (1)
1.2 报酬过程与准则函数 (2)
1.3 历史 (6)
参考文献 (7)
第2章 有限阶段 (10)
2.1 有限阶段最优方程 (10)
2.2 应用 (13)
2.2.1 序贯投资问题 (13)
2.2.2 秘书选择问题 (15)
2.3 模函数与单调策略 (16)
文献注释 (22)
参考文献 (22)
第3章 折扣准则 (23)
3.1 折扣最优方程 (23)
3.1.1 无界报酬条件及目标函数的存在性 (23)
3.1.2 最优方程 (26)
3.2 (ε)最优策略的性质和结构 (30)
3.2.1 最优策略的性质和结构 (30)
3.2.2 ε最优策略的性质和结构 (33)
.3.3 逐次逼近法与策略迭代法 (35)
3.3.1 逐次逼近法 (35)
3.3.2 策略迭代法 (40)
3.3.3 策略迭代-逐次逼近法 (41)
3.4 线性规划法 (45)
3.5 状态逼近法 (47)
3.6 blackwell最优准则 (52)
3.6.1 罗朗级数展开 (52)
3.6.2 求blackwell最优策略的策略迭代法 (54)
3.7 非可数决策集 (56)
文献注释 (58)
参考文献 (59)
第4章 总报酬准则 (62)
4.1 模型缩减 (62)
4.2 报酬函数和准则函数的有限性 (63)
4.2.1 报酬函数的有限性 (64)
4.2.2 最优值函数的有限性及最优方程 (66)
4.3 充分条件 (69)
4.4 最优方程与(ε)最优策略 (72)
4.5 逐次逼近法 (76)
文献注释 (77)
参考文献 (77)
第5章 平均准则 (78)
5.1 引言和反例 (78)
5.2 平均准则最优方程 (82)
5.2.1 平均准则最优方程与(ε)最优策略 (82)
5.2.2 常返性条件 (86)
5.2.3 转换为折扣准则 (88)
5.3 多链马尔可夫决策过程 (89)
5.3.1 最优方程系 (89)
5.3.2 典型三重组 (90)
5.4 策略迭代法 (97)
5.5 逐次逼近法 (101)
5.5.1 基于最优方程的逐次逼近法 (101)
5.5.2 基于最优方程系的逐次逼近法 (104)
5.6 线性规划法 (108)
5.7 最优不等式 (112)
文献注释 (120)
参考文献 (122)
第6章 半马尔可夫决策过程 (125)
6.1 半马尔可夫决策过程模型 (125)
6.1.1 模型 (125)
6.1.2 正则性条件 (126)
6.1.3 准则函数 (129)
6.2 转换为离散时间马尔可夫决策过程 (132)
6.2.1 期望折扣总报酬准则 (132)
6.2.2 平均准则 (132)
6.2.3 马尔可夫型半马尔可夫决策过程 (138)
文献注释 (139)
参考文献 (140)
第七章 连续时间马尔可夫决策过程 (141)
7.1 连续时间马尔可夫决策过程模型 (141)
7.2 期望折扣总报酬准则 (144)
7.3 平均准则 (149)
7.4 非平稳期望总报酬准则 (151)
文献注释 (158)
参考文献 (158)
第8章 一般化马尔可夫决策过程 (160)
8.1 状态部分可观察的马尔可夫决策过程 (160)
8.1.1 模型 (160)
8.1.2 折扣准则 (161)
8.1.3 有限阶段 (166)
8.2 约束马尔可夫决策过程 (169)
8.2.1 单约束 (169)
8.2.2 多约束 (173)
8.2.3 哈密尔顿圈 (177)
8.3 多目标马尔可夫决策过程 (180)
8.3.1 折扣准则 (181)
8.3.2 折扣与平均的加权准则 (186)
8.4 摄动马尔可夫决策过程 (190)
8.4.1 摄动的非平稳平均准则马尔可夫决策过程 (191)
8.4.2 摄动的连续时间折扣准则马尔可夫决策过程 (197)
文献注释 (199)
参考文献 (201)
第9章 随机环境马尔可夫决策过程 (206)
9.1 半氏环境连续时间马尔可夫决策过程 (206)
9.1.1 模型 (206)
9.1.2 最优方程 (210)
9.1.3 弱收敛逼近 (216)
9.1.4 马尔可夫环境和位相型环境 (218)
9.2 半马尔可夫环境半马尔可夫决策过程 (223)
9.2.1 模型 (223)
9.2.2 最优方程 (226)
9.2.3 马尔可夫环境 (229)
9.3 半马尔可夫环境混合马尔可夫决策过程 (230)
9.3.1 模型 (230)
9.3.2 最优方程 (232)
9.3.3 马尔可夫环境 (237)
文献注释 (238)
参考文献 (239)
第10章 在排队/通信系统中的应用 (240)
10.1 排队系统的到达控制 (240)
10.1.1 静态到达控制 (241)
10.1.2 m/m/c系统的动态到达控制 (242)
10.1.3 一般动态到达控制 (243)
10.2 排队系统服务控制 (246)
10.3 排队网络控制 (250)
10.3.1 到达控制 (250)
10.3.2 服务控制 (250)
10.3.3 路径控制 (252)
10.4 通信网络控制 (253)
文献注释 (255)
参考文献 (255)
第11章 在其他方面的应用 (257)
11.1 生产/存贮系统最优控制 (257)
11.2 系统最优更换/维修 (259)
11.2.1 模型 (259)
11.2.2 折扣准则 (262)
11.2.3 平均目标 (264)
11.2.4 无冲击 (265)
11.3 质量控制 (266)
11.4 目标的最优搜索 (268)
11.4.1 固定目标的最优搜索 (268)
11.4.2 活动目标的最优搜索 (269)
11.5 柔性制造系统最优路径控制 (270)
11.5.1 一类流水线的最优动态负荷分配 (270)
11.5.2 动态路径调度 (271)
文献注释 (272)
参考文献 (272)
1.1 离散时间马尔可夫决策过程模型 (1)
1.2 报酬过程与准则函数 (2)
1.3 历史 (6)
参考文献 (7)
第2章 有限阶段 (10)
2.1 有限阶段最优方程 (10)
2.2 应用 (13)
2.2.1 序贯投资问题 (13)
2.2.2 秘书选择问题 (15)
2.3 模函数与单调策略 (16)
文献注释 (22)
参考文献 (22)
第3章 折扣准则 (23)
3.1 折扣最优方程 (23)
3.1.1 无界报酬条件及目标函数的存在性 (23)
3.1.2 最优方程 (26)
3.2 (ε)最优策略的性质和结构 (30)
3.2.1 最优策略的性质和结构 (30)
3.2.2 ε最优策略的性质和结构 (33)
.3.3 逐次逼近法与策略迭代法 (35)
3.3.1 逐次逼近法 (35)
3.3.2 策略迭代法 (40)
3.3.3 策略迭代-逐次逼近法 (41)
3.4 线性规划法 (45)
3.5 状态逼近法 (47)
3.6 blackwell最优准则 (52)
3.6.1 罗朗级数展开 (52)
3.6.2 求blackwell最优策略的策略迭代法 (54)
3.7 非可数决策集 (56)
文献注释 (58)
参考文献 (59)
第4章 总报酬准则 (62)
4.1 模型缩减 (62)
4.2 报酬函数和准则函数的有限性 (63)
4.2.1 报酬函数的有限性 (64)
4.2.2 最优值函数的有限性及最优方程 (66)
4.3 充分条件 (69)
4.4 最优方程与(ε)最优策略 (72)
4.5 逐次逼近法 (76)
文献注释 (77)
参考文献 (77)
第5章 平均准则 (78)
5.1 引言和反例 (78)
5.2 平均准则最优方程 (82)
5.2.1 平均准则最优方程与(ε)最优策略 (82)
5.2.2 常返性条件 (86)
5.2.3 转换为折扣准则 (88)
5.3 多链马尔可夫决策过程 (89)
5.3.1 最优方程系 (89)
5.3.2 典型三重组 (90)
5.4 策略迭代法 (97)
5.5 逐次逼近法 (101)
5.5.1 基于最优方程的逐次逼近法 (101)
5.5.2 基于最优方程系的逐次逼近法 (104)
5.6 线性规划法 (108)
5.7 最优不等式 (112)
文献注释 (120)
参考文献 (122)
第6章 半马尔可夫决策过程 (125)
6.1 半马尔可夫决策过程模型 (125)
6.1.1 模型 (125)
6.1.2 正则性条件 (126)
6.1.3 准则函数 (129)
6.2 转换为离散时间马尔可夫决策过程 (132)
6.2.1 期望折扣总报酬准则 (132)
6.2.2 平均准则 (132)
6.2.3 马尔可夫型半马尔可夫决策过程 (138)
文献注释 (139)
参考文献 (140)
第七章 连续时间马尔可夫决策过程 (141)
7.1 连续时间马尔可夫决策过程模型 (141)
7.2 期望折扣总报酬准则 (144)
7.3 平均准则 (149)
7.4 非平稳期望总报酬准则 (151)
文献注释 (158)
参考文献 (158)
第8章 一般化马尔可夫决策过程 (160)
8.1 状态部分可观察的马尔可夫决策过程 (160)
8.1.1 模型 (160)
8.1.2 折扣准则 (161)
8.1.3 有限阶段 (166)
8.2 约束马尔可夫决策过程 (169)
8.2.1 单约束 (169)
8.2.2 多约束 (173)
8.2.3 哈密尔顿圈 (177)
8.3 多目标马尔可夫决策过程 (180)
8.3.1 折扣准则 (181)
8.3.2 折扣与平均的加权准则 (186)
8.4 摄动马尔可夫决策过程 (190)
8.4.1 摄动的非平稳平均准则马尔可夫决策过程 (191)
8.4.2 摄动的连续时间折扣准则马尔可夫决策过程 (197)
文献注释 (199)
参考文献 (201)
第9章 随机环境马尔可夫决策过程 (206)
9.1 半氏环境连续时间马尔可夫决策过程 (206)
9.1.1 模型 (206)
9.1.2 最优方程 (210)
9.1.3 弱收敛逼近 (216)
9.1.4 马尔可夫环境和位相型环境 (218)
9.2 半马尔可夫环境半马尔可夫决策过程 (223)
9.2.1 模型 (223)
9.2.2 最优方程 (226)
9.2.3 马尔可夫环境 (229)
9.3 半马尔可夫环境混合马尔可夫决策过程 (230)
9.3.1 模型 (230)
9.3.2 最优方程 (232)
9.3.3 马尔可夫环境 (237)
文献注释 (238)
参考文献 (239)
第10章 在排队/通信系统中的应用 (240)
10.1 排队系统的到达控制 (240)
10.1.1 静态到达控制 (241)
10.1.2 m/m/c系统的动态到达控制 (242)
10.1.3 一般动态到达控制 (243)
10.2 排队系统服务控制 (246)
10.3 排队网络控制 (250)
10.3.1 到达控制 (250)
10.3.2 服务控制 (250)
10.3.3 路径控制 (252)
10.4 通信网络控制 (253)
文献注释 (255)
参考文献 (255)
第11章 在其他方面的应用 (257)
11.1 生产/存贮系统最优控制 (257)
11.2 系统最优更换/维修 (259)
11.2.1 模型 (259)
11.2.2 折扣准则 (262)
11.2.3 平均目标 (264)
11.2.4 无冲击 (265)
11.3 质量控制 (266)
11.4 目标的最优搜索 (268)
11.4.1 固定目标的最优搜索 (268)
11.4.2 活动目标的最优搜索 (269)
11.5 柔性制造系统最优路径控制 (270)
11.5.1 一类流水线的最优动态负荷分配 (270)
11.5.2 动态路径调度 (271)
文献注释 (272)
参考文献 (272)
An Introduction to Markov Decision Processes
- 名称
- 类型
- 大小
光盘服务联系方式: 020-38250260 客服QQ:4006604884
云图客服:
用户发送的提问,这种方式就需要有位在线客服来回答用户的问题,这种 就属于对话式的,问题是这种提问是否需要用户登录才能提问
Video Player
×
Audio Player
×
pdf Player
×
![loading icon](/img/book/loading_solarSystem.gif)