图书介绍

马尔可夫决策过程2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

侯振挺，郭先平著著
出版社：长沙：湖南科学技术出版社
ISBN：7535722725
出版时间：1998
标注页数：386页
文件大小：9MB
文件页数：400页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：8aa64c61e2f70f605bde0d2b00e35d60

下载说明

马尔可夫决策过程PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

目录1

绪论1

第1篇马尔可夫决策过程的基本模型11

1 马尔可夫决策过程（MDP）的现状13

§1.1 马尔可夫决策过程的背景13

§1.2 离散时间非平稳MDP14

§1.3 离散时间平稳情形MDP16

§1.4 连续时间MDP22

§1.5 连续时间SMDP24

2 策略类的等价性27

§2.1 基本模型及定义27

§2.2 预备引理及其证明29

§2.3 策略类∏与策略类∏m的等价性31

§2.4 本章结论的注记37

第2篇离散时间可数状态MDP39

§3.1 引言41

3 平稳MDP的折扣目标41

§3.2 平稳策略优势43

§3.3 存在一个平稳策略是最优的45

§3.4 策略迭代法48

§3.5 逐次逼近法52

§3.6 策略迭代——逐次逼近法55

§3.7 线性规划法57

§3.8 本章结论的注记60

§4.2 平稳最优策略的存在性61

4 平稳MDP的平均目标61

§4.1 引言61

§4.3 策略迭代算法65

§4.4 线性规划算法70

§4.5 特殊情形71

§4.6 数值例子73

§4.7 本章结论的注记76

§5.1 基本模型及定义78

5 非平稳MDP的期望总报酬目标78

§5.2 模型的时齐化79

§5.3 最优马氏策略的存在性82

§5.4 最优策略的结构88

§5.5 本章结论的注记94

6 受约束的非平稳MDP期望总报酬目标95

§6.1 基本模型及定义95

§6.2 目标函数对策略的连续性96

§6.3 约束最优策略的刻画101

§6.4 进一步的结果105

§6.5 本章结论的注记108

7 非平稳MDP的平均目标109

§7.1 基本模型及定义109

§7.2 最优方程的可解性111

§7.3 W-ε-最优马氏策略的存在性113

§7.4 逐次逼近算法122

§7.5 最优策略的结构126

§7.6 ε-最优策略的Bellman最优性原理135

§7.7 平均方差目标144

§7.8 一致最优（G，B）-生成策略的存在性158

§7.9 本章结论的注记168

第3篇离散时间Borel状态空间非平稳MDP171

8 期望总报酬目标173

§8.1 引言及模型173

§8.2 模型的转化174

§8.3 最大报酬函数的广义可测性177

§8.4 最优马氏策略的存在性186

§8.5 本章结论的注记190

9 受约束的期望总报酬准则191

§9.1 基本模型和假设191

§9.2 随机策略类及最优策略类的紧性193

§9.3 约束最优策略的存在性195

§9.4 本章结论的注记199

10 平均报酬目标200

§10.1 基本模型及定义200

§10.2 最优方程解的存在性201

§10.3 最优马氏策略的存在性204

§10.4 值迭代算法208

§10.5 最优策略的结构211

§10.6 平均方差目标216

§10.7 本章结论的注记220

第4篇连续时间可数状态MDP221

11 折扣模型223

§11.1 引言223

§11.2 基本假设和定义224

§11.3 折扣目标229

§11.4 最优平稳策略的存在性与策略迭代算法233

§11.5 化连续时间模型为离散时间模型236

§11.6 进一步的结果237

§11.7 最优策略的性质243

§11.8 本章结论的注记248

12 折扣模型与最优Q过程249

§12.1 基本模型及定义249

§12.2 Q（π）过程唯一时的折扣目标250

§12.3 Q（π）-矩阵非保守情形256

§12.4 Q（π）过程不唯一情形与最优Q过程258

§12.5 最优决策过程265

§12.6 本章结论的注记272

13 平均模型274

§13.1 引言274

§13.2 附加假设同预备知识274

§13.3 最优平稳策略的存在性281

§13.4 ε-最优平稳策略285

§13.5 策略迭代法及其收敛性288

§13.6 进一步的结果与值迭代算法292

§13.7 化连续时间模型为离散时间模型297

§13.8 本章结论的注记298

第5篇连续时间可数状态SMDP299

14 一个新的折扣目标301

§14.1 引言及模型301

§14.2 最优策略的存在性303

§14.3 特殊情形307

§14.4 本章结论的注记310

15 平均目标311

§15.1 基本模型及定义311

§15.2 最优方程的确立313

§15.3 平均期望目标ε-最优策略的存在性316

§15.4 期望平均目标的强最优性322

§15.5 本章结论的注记327

第6篇 MDP的应用329

§16.1 更换问题331

16 MDP的应用例子331

§16.2 更换存贮问题335

§16.3 检查、维修与更换问题340

§16.4 存贮问题341

§16.5 质量控制问题342

§16.6 可靠性问题346

§16.7 随机旅行售货员问题347

§16.8 存贮-生产系统问题348

§16.9 公共汽车、街道小车或步行问题349

§16.10 本章结论的注记355

附录基本知识357

附录A 随机核357

附录B 多值映射和可测选择理论360

附录C 最小非负解理论363

参考文献365

符号索引382

内容索引385