图书介绍
Python强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- (印度)苏达桑·拉维尚迪兰(SUDHARSANRAVICHANDIRAN)著;连晓峰等译 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111612889
- 出版时间:2019
- 标注页数:203页
- 文件大小:72MB
- 文件页数:216页
- 主题词:软件工具-程序设计
PDF下载
下载说明
Python强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 强化学习简介1
1.1什么是强化学习1
1.2强化学习算法2
1.3强化学习与其他机器学习范式的不同3
1.4强化学习的要素3
1.4.1智能体3
1.4.2策略函数3
1.4.3值函数4
1.4.4模型4
1.5智能体环境接口4
1.6强化学习的环境类型5
1.6.1确定性环境5
1.6.2随机性环境5
1.6.3完全可观测环境5
1.6.4部分可观测环境5
1.6.5离散环境5
1.6.6连续环境5
1.6.7情景和非情景环境5
1.6.8单智能体和多智能体环境6
1.7强化学习平台6
1.7.1 OpenAI Gym和Universe6
1.7.2 DeepMind Lab6
1.7.3 RL-Glue6
1.7.4 Project Malmo6
1.7.5 VizDoom6
1.8强化学习的应用7
1.8.1教育7
1.8.2医疗和健康7
1.8.3制造业7
1.8.4库存管理7
1.8.5金融7
1.8.6自然语言处理和计算机视觉7
1.9小结8
1.10问题8
1.11扩展阅读8
第2章从OpenAl和TensorFlow入门9
2.1计算机设置9
2.1.1安装Anaconda9
2.1.2安装Docker10
2.1.3安装OpenAI Gym和Universe11
2.2 OpenAl Gym13
2.2.1基本模拟13
2.2.2训练机器人行走14
2.3 OpenAl Universe16
2.3.1构建一个视频游戏机器人16
2.4 TensorFlow20
2.4.1变量、常量和占位符20
2.4.2计算图21
2.4.3会话21
2.4.4 TensorBoard22
2.5小结25
2.6问题25
2.7扩展阅读25
第3章 马尔可夫决策过程和动态规划26
3.1马尔可夫链和马尔可夫过程26
3.2 MDP27
3.2.1奖励和回报28
3.2.2情景和连续任务28
3.2.3折扣因数28
3.2.4策略函数29
3.2.5状态值函数29
3.2.6状态一行为值函数(Q函数)30
3.3 Bellman方程和最优性30
3.3.1推导值函数和Q函数的Bellman方程31
3.4求解Bellman方程32
3.4.1动态规划32
3.5求解冰冻湖问题38
3.5.1值迭代39
3.5.2策略迭代43
3.6小结45
3.7问题45
3.8扩展阅读46
第4章 基于蒙特卡罗方法的博弈游戏47
4.1蒙特卡罗方法47
4.1.1利用蒙特卡罗方法估计π值47
4.2蒙特卡罗预测50
4.2.1首次访问蒙特卡罗51
4.2.2每次访问蒙特卡罗52
4.2.3利用蒙特卡罗方法玩二十一点游戏52
4.3蒙特卡罗控制58
4.3.1蒙特卡罗探索开始58
4.3.2在线策略的蒙特卡罗控制59
4.3.3离线策略的蒙特卡罗控制61
4.4小结62
4.5问题62
4.6扩展阅读63
第5章 时间差分学习64
5.1时间差分学习64
5.2时间差分预测64
5.3时间差分控制66
5.3.1 Q学习66
5.3.2 SARSA72
5.4 Q学习和SARSA之间的区别77
5.5小结77
5.6问题78
5.7扩展阅读78
第6章MAB问题79
6.1 MAB问题79
6.1.1ε贪婪策略80
6.1.2 Softmax探索算法82
6.1.3 UCB算法83
6.1.4 Thompson采样算法85
6.2 MAB的应用86
6.3利用MAB识别正确的广告标识87
6.4上下文赌博机89
6.5小结89
6.6 问题89
6.7扩展阅读89
第7章 深度学习基础90
7.1人工神经元90
7.2 ANN91
7.2.1输入层92
7.2.2隐层92
7.2.3输出层92
7.2.4激活函数92
7.3深入分析ANN93
7.3.1梯度下降95
7.4 TensorFlow中的神经网络99
7.5 RNN101
7.5.1基于时间的反向传播103
7.6 LSTM RNN104
7.6.1利用LSTM RNN生成歌词105
7.7 CNN108
7.7.1卷积层109
7.7.2池化层111
7.7.3全连接层112
7.7.4 CNN架构112
7.8利用CNN对时尚产品进行分类113
7.9小结117
7.10问题117
7.11扩展阅读118
第8章 基于DQN的Atari游戏119
8.1什么是DQN119
8.2 DQN的架构120
8.2.1卷积网络120
8.2.2经验回放121
8.2.3目标网络121
8.2.4奖励裁剪122
8.2.5算法理解122
8.3构建一个智能体来玩Atari游戏122
8.4双DQN129
8.5优先经验回放130
8.6对抗网络体系结构130
8.7小结131
8.8问题132
8.9扩展阅读132
第9章 基于DRQN玩Doom游戏133
9.1 DRQN133
9.1.1 DRQN架构134
9.2训练一个玩Doom游戏的智能体135
9.2.1基本的Doom游戏135
9.2.2基于DRQN的Doom游戏136
9.3 DARQN145
9.3.1 DARQN架构145
9.4小结145
9.5问题146
9.6扩展阅读146
第10章A3C网络147
10.1 A3C147
10.1.1异步优势行为者147
10.1.2 A3C架构148
10.1.3 A3C的工作原理149
10.2基于A3C爬山149
10.2.1 TensorBoard中的可视化155
10.3小结158
10.4问题158
10.5扩展阅读158
第11章 策略梯度和优化159
11.1策略梯度159
11.1.1基于策略梯度的月球着陆器160
11.2 DDPG164
11.2.1倒立摆165
11.3 TRPO170
11.4 PPO173
11.5小结175
11.6问题175
11.7扩展阅读175
第12章Capstone项目——基于DQN的赛车游戏176
12.1环境封装函数176
12.2对抗网络179
12.3回放记忆180
12.4 训练网络181
12.5赛车游戏186
12.6小结189
12.7问题189
12.8扩展阅读189
第13章 最新进展和未来发展190
13.1 I2A190
13.2基于人类偏好的学习193
13.3 DQfd194
13.4 HER195
13.5 HRL196
13.5.1 MAXQ值函数分解196
13.6逆向强化学习198
13.7小结199
13.8问题199
13.9扩展阅读199
附录 知识点200
热门推荐
- 3136362.html
- 482429.html
- 3659499.html
- 140017.html
- 2705262.html
- 775476.html
- 3157436.html
- 2411533.html
- 2509867.html
- 3479114.html
- http://www.ickdjs.cc/book_1366162.html
- http://www.ickdjs.cc/book_1356188.html
- http://www.ickdjs.cc/book_2665910.html
- http://www.ickdjs.cc/book_2955617.html
- http://www.ickdjs.cc/book_640272.html
- http://www.ickdjs.cc/book_2202527.html
- http://www.ickdjs.cc/book_928733.html
- http://www.ickdjs.cc/book_3390204.html
- http://www.ickdjs.cc/book_1822730.html
- http://www.ickdjs.cc/book_2950995.html