An Introduction to Markov Decision Processes

副标题：无

作者：胡奇英，刘建庸著

分类号：O225

ISBN：9787560608303

收录收藏 (0) 评论纠错

微信扫一扫,移动浏览光盘

简介

简介

　　马尔可夫决策过程是研究随机环境下多阶段决策过程优化问题的理论工具，在过去的几十年中，随着生态科学、经济理论、通讯工程以及众多学科中需要考虑不确定因素和序列决策问题的大量新模型的涌现，进一步刺激了马尔可夫决策过程在理论上和应用领域中长足发展。本书从简单的例子开始，介绍了马尔可夫决策过程的基本概念、决策过程以及一些常用的基本理论。还介绍了多种最优准则，包括有限阶段准则、折扣准则、平均准则、权重报酬准则、概率准则等。从模型角度考虑了有限状态空间、可数状态空间和一般Borel状态空间；从决策时间上来说，考虑了离散时间、连续时间和半马氏决策时刻问题。本文还介绍了大量的应用实例以及建模方法。本书可作为高年级大学和研究生教材，也可作为运筹学、管理科学、信息科学、系统科学以及计算机科学和工程领域的学者和技术人员的参考书。

第1章引论 (1)

1.1 离散时间马尔可夫决策过程模型 (1)

1.2 报酬过程与准则函数 (2)

1.3 历史 (6)

参考文献 (7)

第2章有限阶段 (10)

2.1 有限阶段最优方程 (10)

2.2 应用 (13)

2.2.1 序贯投资问题 (13)

2.2.2 秘书选择问题 (15)

2.3 模函数与单调策略 (16)

文献注释 (22)

参考文献 (22)

第3章折扣准则 (23)

3.1 折扣最优方程 (23)

3.1.1 无界报酬条件及目标函数的存在性 (23)

3.1.2 最优方程 (26)

3.2 (ε)最优策略的性质和结构 (30)

3.2.1 最优策略的性质和结构 (30)

3.2.2 ε最优策略的性质和结构 (33)

.3.3 逐次逼近法与策略迭代法 (35)

3.3.1 逐次逼近法 (35)

3.3.2 策略迭代法 (40)

3.3.3 策略迭代-逐次逼近法 (41)

3.4 线性规划法 (45)

3.5 状态逼近法 (47)

3.6 blackwell最优准则 (52)

3.6.1 罗朗级数展开 (52)

3.6.2 求blackwell最优策略的策略迭代法 (54)

3.7 非可数决策集 (56)

文献注释 (58)

参考文献 (59)

第4章总报酬准则 (62)

4.1 模型缩减 (62)

4.2 报酬函数和准则函数的有限性 (63)

4.2.1 报酬函数的有限性 (64)

4.2.2 最优值函数的有限性及最优方程 (66)

4.3 充分条件 (69)

4.4 最优方程与(ε)最优策略 (72)

4.5 逐次逼近法 (76)

文献注释 (77)

参考文献 (77)

第5章平均准则 (78)

5.1 引言和反例 (78)

5.2 平均准则最优方程 (82)

5.2.1 平均准则最优方程与(ε)最优策略 (82)

5.2.2 常返性条件 (86)

5.2.3 转换为折扣准则 (88)

5.3 多链马尔可夫决策过程 (89)

5.3.1 最优方程系 (89)

5.3.2 典型三重组 (90)

5.4 策略迭代法 (97)

5.5 逐次逼近法 (101)

5.5.1 基于最优方程的逐次逼近法 (101)

5.5.2 基于最优方程系的逐次逼近法 (104)

5.6 线性规划法 (108)

5.7 最优不等式 (112)

文献注释 (120)

参考文献 (122)

第6章半马尔可夫决策过程 (125)

6.1 半马尔可夫决策过程模型 (125)

6.1.1 模型 (125)

6.1.2 正则性条件 (126)

6.1.3 准则函数 (129)

6.2 转换为离散时间马尔可夫决策过程 (132)

6.2.1 期望折扣总报酬准则 (132)

6.2.2 平均准则 (132)

6.2.3 马尔可夫型半马尔可夫决策过程 (138)

文献注释 (139)

参考文献 (140)

第七章连续时间马尔可夫决策过程 (141)

7.1 连续时间马尔可夫决策过程模型 (141)

7.2 期望折扣总报酬准则 (144)

7.3 平均准则 (149)

7.4 非平稳期望总报酬准则 (151)

文献注释 (158)

参考文献 (158)

第8章一般化马尔可夫决策过程 (160)

8.1 状态部分可观察的马尔可夫决策过程 (160)

8.1.1 模型 (160)

8.1.2 折扣准则 (161)

8.1.3 有限阶段 (166)

8.2 约束马尔可夫决策过程 (169)

8.2.1 单约束 (169)

8.2.2 多约束 (173)

8.2.3 哈密尔顿圈 (177)

8.3 多目标马尔可夫决策过程 (180)

8.3.1 折扣准则 (181)

8.3.2 折扣与平均的加权准则 (186)

8.4 摄动马尔可夫决策过程 (190)

8.4.1 摄动的非平稳平均准则马尔可夫决策过程 (191)

8.4.2 摄动的连续时间折扣准则马尔可夫决策过程 (197)

文献注释 (199)

参考文献 (201)

第9章随机环境马尔可夫决策过程 (206)

9.1 半氏环境连续时间马尔可夫决策过程 (206)

9.1.1 模型 (206)

9.1.2 最优方程 (210)

9.1.3 弱收敛逼近 (216)

9.1.4 马尔可夫环境和位相型环境 (218)

9.2 半马尔可夫环境半马尔可夫决策过程 (223)

9.2.1 模型 (223)

9.2.2 最优方程 (226)

9.2.3 马尔可夫环境 (229)

9.3 半马尔可夫环境混合马尔可夫决策过程 (230)

9.3.1 模型 (230)

9.3.2 最优方程 (232)

9.3.3 马尔可夫环境 (237)

文献注释 (238)

参考文献 (239)

第10章在排队/通信系统中的应用 (240)

10.1 排队系统的到达控制 (240)

10.1.1 静态到达控制 (241)

10.1.2 m/m/c系统的动态到达控制 (242)

10.1.3 一般动态到达控制 (243)

10.2 排队系统服务控制 (246)

10.3 排队网络控制 (250)

10.3.1 到达控制 (250)

10.3.2 服务控制 (250)

10.3.3 路径控制 (252)

10.4 通信网络控制 (253)

文献注释 (255)

参考文献 (255)

第11章在其他方面的应用 (257)

11.1 生产/存贮系统最优控制 (257)

11.2 系统最优更换/维修 (259)

11.2.1 模型 (259)

11.2.2 折扣准则 (262)

11.2.3 平均目标 (264)

11.2.4 无冲击 (265)

11.3 质量控制 (266)

11.4 目标的最优搜索 (268)

11.4.1 固定目标的最优搜索 (268)

11.4.2 活动目标的最优搜索 (269)

11.5 柔性制造系统最优路径控制 (270)

11.5.1 一类流水线的最优动态负荷分配 (270)

11.5.2 动态路径调度 (271)

文献注释 (272)

参考文献 (272)

已确认勘误

页码	勘误内容	提交人	修订印次

An Introduction to Markov Decision Processes

名称
类型
大小

用户反馈

FAQ

An Introduction to Markov Decision Processes

已确认勘误

第次印刷 筛选

第次印刷