图书介绍

预测分析 PYTHON语言实现2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

（美）约瑟夫·巴布科克著；余水清译著
出版社：北京市：机械工业出版社
ISBN：9787111573890
出版时间：2017
标注页数：200页
文件大小：48MB
文件页数：216页
主题词：软件工具－程序设计

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：0672bab75e83553929b4f1a2a9f3d11b

下载说明

预测分析 PYTHON语言实现PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章数据转换成决策——从分析应用着手1

1.1 设计高级分析方案3

1.1.1 数据层：数据仓库、数据湖和数据流3

1.1.2 模型层5

1.1.3 部署层8

1.1.4 报告层8

1.2 案例学习：社交媒体数据的情感分析9

1.2.1 数据输入和转换10

1.2.2 合理性检查10

1.2.3 模型开发10

1.2.4 评分10

1.2.5 可视化和报告10

1.3 案例学习：针对性电子邮件活动11

1.3.1 数据输入和转换11

1.3.2 合理性检查11

1.3.3 模型开发12

1.3.4 评分12

1.3.5 可视化和报告12

1.4 总结13

第2章 Python数据分析和可视化初探14

2.1 在IPython中探索分类和数值型数据15

2.1.1 安装IPython notebook15

2.1.2 notebook的界面15

2.1.3 加载和检视数据17

2.1.4 基本操作——分组、过滤、映射以及透视19

2.1.5 用Matplotlib绘制图表23

2.2 时间序列分析28

2.2.1 清洗和转换28

2.2.2 时间序列诊断29

2.2.3 连接信号和相关性31

2.3 操作地理数据33

2.3.1 加载地理数据33

2.3.2 工作在云上34

2.4 PySpark简介35

2.4.1 创建SparkContext35

2.4.2 创建RDD36

2.4.3 创建Spark DataFrame37

2.4 总结38

第3章在噪声中探求模式——聚类和无监督学习39

3.1 相似性和距离度量39

3.1.1 数值距离度量40

3.1.2 相关相似性度量和时间序列43

3.1.3 分类数据的相似性度量48

3.1.4 k-均值聚类52

3.2 近邻传播算法——自动选择聚类数量56

3.3 k-中心点算法58

3.4 凝聚聚类算法59

3.5 Spark中的数据流聚类63

3.6 总结66

第4章从点到模型——回归方法67

4.1 线性回归67

4.1.1 数据准备69

4.1.2 模型拟合和评价72

4.1.3 回归输出的显著性差异75

4.1.4 广义估计方程79

4.1.5 混合效应模型80

4.1.6 时间序列数据80

4.1.7 广义线性模型81

4.1.8 线性模型的正则化82

4.2 树方法84

4.2.1 决策树84

4.2.2 随机森林87

4.3 利用PySpark进一步扩展——预测歌曲的发行年份90

4.4 总结91

第5章数据分类——分类方法和分析92

5.1 逻辑回归92

5.1.1 多分类逻辑分类器：多元回归94

5.1.2 分类问题中的数据格式化95

5.1.3 基于随机梯度下降法的学习逐点更新98

5.1.4 使用二阶方法联合优化所有参数99

5.2 拟合模型102

5.3 评估分类模型104

5.4 通过支持向量机分离非线性边界108

5.4.1 人口普查数据的拟合和SVM110

5.4.2 Boosting：组合小模型以改善准确度111

5.4.3 梯度提升决策树112

5.5 分类方法比较114

5.6 案例学习：在PySpark中拟合分类器模型115

5.7 总结116

第6章词语和像素——非结构化数据分析117

6.1 文本数据分析117

6.1.1 文本数据清洗118

6.1.2 从文本数据中提取特征120

6.1.3 利用降维来简化数据集121

6.2 主分量分析122

6.2.1 隐含狄利克雷分布130

6.2.2 在预测模型中使用降维132

6.3 图像132

6.3.1 图像数据清洗132

6.3.2 利用图像阈值来突出显示对象135

6.3.3 图像分析中的降维137

6.4 案例学习：在PySpark中训练一个推荐系统139

6.5 总结141

第7章自底向上学习——深度网络和无监督特征142

7.1 使用神经网络学习模式142

7.1.1 单一感知器构成的网络143

7.1.2 感知器组合——一个单层神经网络143

7.1.3 反向传播的参数拟合145

7.1.4 判别式模型与生成式模型148

7.1.5 梯度消失及“解去”149

7.1.6 预训练信念网络（贝叶斯网络）151

7.1.7 使用dropout来正则化网络152

7.1.8 卷积网络和纠正单元153

7.1.9 利用自编码网络压缩数据155

7.1.10 优化学习速率156

7.2 TensorFlow库与数字识别157

7.2.1 MNIST数据157

7.2.2 构建网络159

7.3 总结162

第8章利用预测服务共享模型163

8.1 预测服务的架构163

8.2 客户端和发出请求165

8.2.1 GET请求165

8.2.2 POST请求166

8.2.3 HEAD请求166

8.2.4 PUT请求166

8.2.5 DELETE请求167

8.3 服务器——Web流量控制器167

8.4 利用数据库系统持久化存储信息169

8.5 案例学习——逻辑回归服务170

8.5.1 建立数据库170

8.5.2 Web服务器172

8.5.3 Web应用173

8.6 总结184

第9章报告和测试——分析型系统迭代185

9.1 利用诊断检查模型的健康度185

9.1.1 评估模型性能的变化185

9.1.2 特征重要性的变化188

9.1.3 无监督模型性能的变化189

9.2 通过AB测试对模型进行迭代190

9.2.1 实验分配——将客户分配给实验190

9.2.2 决定样本大小191

9.2.3 多重假设检验193

9.3 沟通指南194

9.3.1 将术语转换为业务价值194

9.3.2 可视化结果194

9.3.3 报告服务器195

9.3.4 报告应用195

9.3.5 可视化层197

9.4 总结199