图书介绍

Python数据科学入门2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

（美）约翰·保罗·穆勒（John Paul Mueller）著
出版社：北京：人民邮电出版社
ISBN：9787115479624
出版时间：2018
标注页数：372页
文件大小：58MB
文件页数：393页
主题词：软件工具－程序设计

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：ae5131a40da527cfe721724aec118cc4

下载说明

Python数据科学入门PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1部分开启Python数据科学之门1

第1章探索数据科学与Python之间的匹配度3

1.1 定义21世纪最诱人的工作5

1.1.1 思考数据科学的出现5

1.1.2 概述数据科学家的核心竞争力6

1.1.3 连接数据科学和大数据7

1.1.4 理解编程的角色7

1.2 创建数据科学管道8

1.2.1 准备数据8

1.2.2 执行探索性的数据分析8

1.2.3 从数据中学习8

1.2.4 可视化9

1.2.5 获得洞察力和数据产品9

1.3 理解Python在数据科学中的角色9

1.3.1 思考数据科学家的多面性9

1.3.2 使用一门多用途、简单而高效的语言来工作10

1.4 快速学会使用Python11

1.4.1 加载数据11

1.4.2 训练模型12

1.4.3 显示结果13

第2章介绍Python的能力和奇迹14

2.1 为什么是Python15

2.1.1 抓住Python的核心哲学16

2.1.2 探索现在和未来的开发目标16

2.2 使用Python工作17

2.2.1 品味语言17

2.2.2 理解缩进的需求17

2.2.3 用命令行或者IDE工作18

2.3 运行快速原型和实验22

2.4 考虑执行速度23

2.5 可视化能力24

2.6 为数据科学使用Python生态系统26

2.6.1 使用SciPy来访问用于科学的工具26

2.6.2 使用NumPy执行基础的科学计算26

2.6.3 使用pandas来执行数据分析26

2.6.4 使用Scikit-learn实现机器学习27

2.6.5 使用matplotlib来标绘数据27

2.6.6 使用Beautiful Soup来解析HTML文档27

第3章为数据科学设置Python29

3.1 考虑现成的跨平台的用于科学的分发包30

3.1.1 获取Continuum Analytics Anaconda31

3.1.2 获取Enthought Canopy Express32

3.1.3 获取pythonxy32

3.1.4 获取 WinPython33

3.2 在Windows上安装Anaconda33

3.3 在Linux上安装Anaconda36

3.4 在Mac OS X上安装Anaconda37

3.5 下载数据集和示例代码38

3.5.1 使用IPython Notebook39

3.5.2 定义代码仓库40

3.5.3 理解本书中所使用的数据集45

第4章复习Python基础47

4.1 使用数字和逻辑来工作49

4.1.1 执行变量赋值50

4.1.2 做算术运算50

4.1.3 使用布尔表达式来比较数据52

4.2 创建和使用字符串54

4.3 与日期交互55

4.4 创建并使用函数56

4.4.1 创建可复用函数56

4.4.2 以各种不同的方式调用函数58

4.5 使用条件和循环语句61

4.5.1 使用if语句做决策61

4.5.2 使用嵌套决策在多个选项间做出选择62

4.5.3 使用for执行重复任务63

4.5.4 使用while语句64

4.6 使用Sets、 Lists和Tuples来存储数据64

4.6.1 在set上执行操作65

4.6.2 使用list来工作66

4.6.3 创建和使用Tuple67

4.7 定义有用的迭代器69

4.8 使用Dictionaries来索引数据70

第2部分开始着手于数据71

第5章使用真实数据工作73

5.1 上传、流化并采样数据74

5.1.1 把少量数据上传至内存75

5.1.2 把大量数据流化放入内存76

5.1.3 采样数据77

5.2 以结构化的平面文件形式来访问数据78

5.2.1 从文本文件中读取79

5.2.2 读取CSV定界的格式80

5.2.3 读取Excel和其他的微软办公文件82

5.3 以非结构化文件的形式来发送数据83

5.4 管理来自关系型数据库中的数据86

5.5 与来自NoSQL数据库中的数据进行交互87

5.6 访问来自Web的数据88

第6章整理你的数据92

6.1 兼顾NumPy和pandas93

6.1.1 知道什么时候使用NumPy93

6.1.2 知道什么时候使用pandas93

6.2 验证你的数据95

6.2.1 了解你的数据中有什么95

6.2.2 去重96

6.2.3 创建数据地图和数据规划97

6.3 处理分类变量99

6.3.1 创建分类变量100

6.3.2 重命名层级102

6.3.3 组合层级102

6.4 处理你数据中的日期104

6.4.1 格式化日期和时间值104

6.4.2 使用正确的时间转换105

6.5 处理丢失值106

6.5.1 寻找丢失的数据106

6.5.2 为丢失项编码107

6.5.3 为丢失数据估值108

6.6 交叉分析：过滤并选取数据109

6.6.1 切分行109

6.6.2 切分列110

6.6.3 切块110

6.7 连接和变换111

6.7.1 增加新的实例和变量112

6.7.2 移除数据113

6.7.3 排序和搅乱114

6.8 在任何层次聚合数据115

第7章数据整形117

7.1 使用HTML页面来工作118

7.1.1 解析XML和HTML118

7.1.2 使用XPath来抽取数据119

7.2 使用原始文本来工作120

7.2.1 处理Unicode码120

7.2.2 词干提取和停止词移除122

7.2.3 介绍正则表达式124

7.3 使用并超越词袋模型126

7.3.1 理解词袋模型127

7.3.2 用n元文法模型（n-grams）工作128

7.3.3 实现TF-IDF变换130

7.4 使用图数据来工作131

7.4.1 理解邻接矩阵131

7.4.2 使用NetworkX基础132

第8章将你所知的付诸于实践134

8.1 将问题和数据置于上下文中去理解135

8.1.1 评估数据科学问题136

8.1.2 研究方案136

8.1.3 构想出假设137

8.1.4 准备数据138

8.2 思考创建特征的艺术138

8.2.1 定义特征创建138

8.2.2 组合变量139

8.2.3 理解分级和离散化140

8.2.4 使用指示变量140

8.2.5 变换分布140

8.3 在数组上执行运算141

8.3.1 使用向量化141

8.3.2 在向量和矩阵上执行简单的算法142

8.3.3 执行矩阵向量乘法142

8.3.4 执行矩阵乘法143

第3部分把不可见的东西可视化145

第9章获得MatPlotLib的速成课程147

9.1 开始使用图表148

9.1.1 定义标图148

9.1.2 画多线条和多标图149

9.1.3 保存你的工作149

9.2 设置轴、刻度和网格150

9.2.1 得到轴151

9.2.2 格式化轴151

9.2.3 添加网格152

9.3 定义线条外观153

9.3.1 使用线条样式工作153

9.3.2 使用颜色155

9.3.3 添加标记155

9.4 使用标签、注释和图例157

9.4.1 添加标签158

9.4.2 注释图表158

9.4.3 创建图例159

第10章将数据可视化161

10.1 选择合适的图表162

10.1.1 用饼图展示整体的局部组成162

10.1.2 用柱状图来创建比较163

10.1.3 用直方图来展示分布164

10.1.4 使用箱线图来描绘组166

10.1.5 使用散点图看数据模式167

10.2 创建高级的散点图168

10.2.1 描绘组群168

10.2.2 展示关联169

10.3 标绘时间序列171

10.3.1 在轴上表示时间171

10.3.2 标绘随时间的趋势172

10.4 标绘地理数据174

10.5 把图做可视化176

10.5.1 开发无向图176

10.5.2 开发有向图177

第11章理解工具180

11.1 使用IPython控制台181

11.1.1 与屏幕文本交互181

11.1.2 改变窗口外观182

11.1.3 获取Python帮助184

11.1.4 获取IPython帮助185

11.1.5 使用魔法函数186

11.1.6 探索对象187

11.2 使用IPython Notebook188

11.2.1 使用样式来工作189

11.2.2 重启内核190

11.2.3 恢复检查点191

11.3 执行多媒体和图像整合192

11.3.1 嵌入标图和其他图片192

11.3.2 从在线网站上加载例子193

11.3.3 获取在线图像和多媒体193

第4部分处理数据195

第12章拓展Python的能力197

12.1 玩转Scikit-learn198

12.1.1 理解Scikit-leam中的类198

12.1.2 为数据科学定义应用199

12.2 执行散列法202

12.2.1 使用散列函数202

12.2.2 演示散列法203

12.2.3 使用确定性选择来工作205

12.3 考虑计时和性能206

12.3.1 用timeit来做基线检测207

12.3.2 使用内存剖析器来工作209

12.4 并行运行210

12.4.1 执行多核并行化211

12.4.2 演示多核处理212

第13章探索数据分析214

13.1 EDA方法215

13.2 为Numeric数据定义描述性的统计量216

13.2.1 度量集中化趋势217

13.2.2 测量方差和区间217

13.2.3 使用分位数来工作218

13.2.4 定义正态化度量219

13.3 为分类型数据计数220

13.3.1 理解频率220

13.3.2 创建列联表221

13.4 为EDA创建应用可视化222

13.4.1 检查箱线图222

13.4.2 在箱线图之后执行t检验223

13.4.3 观察平行坐标224

13.4.4 为分布作图225

13.4.5 标绘散点图226

13.5 理解相关性228

13.5.1 使用协方差和关联性228

13.5.2 使用非参数相关性230

13.5.3 考虑表格的卡方检验230

13.6 修改数据分布231

13.6.1 使用正态分布232

13.6.2 创建Z评分标准化232

13.6.3 转换其他的著名分布232

第14章降维234

14.1 理解SVD235

14.1.1 寻求降维236

14.1.2 使用SVD来测量不可见的信息237

14.2 执行因子和主成分分析238

14.2.1 考虑心理测量模型239

14.2.2 寻找隐因子239

14.2.3 使用成分，而不是因子240

14.2.4 达成降维240

14.3 理解一些应用241

14.3.1 用PCA来识别人脸241

14.3.2 用NMF来提取主题244

14.3.3 推荐电影246

第15章聚类249

15.1 用K-means聚类251

15.1.1 理解基于质心的算法251

15.1.2 创建使用图像数据的例子253

15.1.3 寻找优化解决方案254

15.1.4 大数据聚类257

15.2 执行层次聚类258

15.3 超越圆形簇：DBScan261

第16章检测数据中的异常点265

16.1 考虑异常检测266

16.1.1 找出更多可能出错的地方267

16.1.2 理解异常数据和新奇的数据268

16.2 检验简单的单变量法268

16.2.1 利用高斯分布270

16.2.2 做出假设并检验270

16.3 开发多变量方法271

16.3.1 使用主成分分析272

16.3.2 使用聚类分析273

16.3.3 使用SVM将异常检测自动化274

第5部分从数据中学习275

第17章探索4个简单又有效的算法277

17.1 猜测数字：线性回归277

17.1.1 定义线性模型家族278

17.1.2 使用更多变量279

17.1.3 理解限制和问题280

17.2 转移到逻辑回归281

17.2.1 应用逻辑回归281

17.2.2 考虑有更多类的时候282

17.3 让事情像朴素贝叶斯（Naive Bayes）一样简单283

17.3.1 发现朴素贝叶斯并不是那么朴素285

17.3.2 预测文本分类286

17.4 使用最近邻来延迟学习287

17.4.1 观察邻居之后做预测288

17.4.2 明智地选择k参数290

第18章执行交叉验证、选择和优化291

18.1 关于拟合模型问题的思考292

18.1.1 理解偏差和方差293

18.1.2 定义挑选模型的策略294

18.1.3 划分训练集和测试集296

18.2 交叉验证299

18.2.1 使用k折交叉验证299

18.2.2 复杂数据的分层采样300

18.3 像专业人士那样选择变量302

18.3.1 通过单变量度量来选择302

18.3.2 使用贪婪搜索303

18.4 提升你的超参数304

18.4.1 实现网格搜索305

18.4.2 尝试随机化搜索309

第19章用线性和非线性技巧增加复杂性311

19.1 使用非线性变换312

19.1.1 执行变量变换312

19.1.2 创建变量间的相互作用314

19.2 正则化线性模型317

19.2.1 依靠Ridge回归（L2）318

19.2.2 使用Lasso （L1）319

19.2.3 利用规范化319

19.2.4 组合L1和L2：Elasticnet320

19.3 逐块与大数据战斗320

19.3.1 当数据过多时来做决定321

19.3.2 实现随机梯度下降321

19.4 理解支持向量机323

19.4.1 依靠一种计算方法324

19.4.2 修正很多新参数327

19.4.3 用SVC分类328

19.4.4 走向非线性是简单的333

19.4.5 用S VR来执行回归334

19.4.6 用SVM创建随机（stochastic）解决方案336

第20章理解多数的力量340

20.1 以朴素的决策树开始341

20.1.1 理解决策树341

20.1.2 创建分类和回归树343

20.2 让机器学习得以应用346

20.2.1 使用随机森林分类器来工作348

20.2.2 使用随机森林回归器来工作349

20.2.3 优化随机森林349

20.3 Boosting预测351

20.3.1 了解多个弱预测器将胜出351

20.3.2 创建梯度推进分类器352

20.3.3 创建梯度推进回归器353

20.3.4 使用GBM超参数353

第6部分十大系列专题355

第21章 10个必不可少的数据科学资源集357

21.1 用数据科学周刊获得深入了解358

21.2 在U Climb Higher上获取资源列表358

21.3 用KDnuggets来获得一个良好的起点359

21.4 访问数据科学中心上的巨型资源列表359

21.5 从专家处获得开源数据科学情报360

21.6 用Quora来定位到免费的学习资源360

21.7 在Conductrics上接收高级主题的帮助361

21.8 从立志数据科学家中学习新技巧361

21.9 在AnalyticBridge上寻找数据智能和分析资源362

21.10 专注于Jonathan Bower的开发者资源362

第22章 10个你应该接受的挑战364

22.1 迎接数据科学伦敦＋Scikit-learn的挑战365

22.2 预测泰坦尼克号上的幸存者366

22.3 寻找满足你需求的Kaggle竞赛366

22.4 磨练你的过拟合策略367

22.5 涉猎MovieLens数据集367

22.6 清除垃圾邮件368

22.7 使用手写信息工作369

22.8 使用图片工作370

22.9 分析Amazon.com审查371

22.10 与巨图交互371