图书介绍

大数据分析与数据挖掘2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

大数据分析与数据挖掘
  • 简祯富,许嘉裕编著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302424253
  • 出版时间:2016
  • 标注页数:354页
  • 文件大小:76MB
  • 文件页数:368页
  • 主题词:统计数据-统计分析;数据采集

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据分析与数据挖掘PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1篇 大数据分析与数据挖掘导论3

第1章 大数据分析与数据挖掘概论3

1.1 前言3

1.2 大数据分析的应用6

1.3 数据挖掘与数字决策8

1.4 数据挖掘和大数据分析架构与步骤9

1.4.1 问题定义与架构10

1.4.2 数据准备11

1.4.3 建立挖掘模式11

1.4.4 结果解释与评估12

1.5 数据挖掘的问题类型13

1.5.1 分类13

1.5.2 预测13

1.5.3 聚类14

1.5.4 关联规则14

1.6 数据挖掘模式14

1.7 结论15

1.8 本书架构17

问题与讨论17

第2章 数据与数据准备19

2.1 数据取得20

2.2 大数据分析的基础:Hadoop22

2.2.1 Hadoop架构22

2.2.2 Hadoop分布式文件系统23

2.2.3 MapReduce24

2.3 数据类型25

2.4 数据尺度26

2.5 数据检查28

2.6 数据探索与可视化29

2.7 数据整合与清理32

2.8 数据转换36

2.8.1 数据数值转换36

2.8.2 数据属性转换37

2.9 数据归约38

2.9.1 数据维度归约38

2.9.2 数据数值归约44

2.10 数据分割46

2.11 应用实例——半导体厂制造技术员人力资源管理质量提升47

2.11.1 案例背景47

2.11.2 数据准备47

2.12 结论50

问题与讨论51

第2篇 数据挖掘方法与实证55

第3章 关联规则55

3.1 关联规则的定义与说明55

3.2 关联规则的衡量指针57

3.3 关联规则的类型59

3.4 关联规则算法60

3.4.1 Apriori算法62

3.4.2 Partition算法65

3.4.3 DHP算法66

3.4.4 MSApriori算法68

3.4.5 FP-Growth算法70

3.5 多维度关联规则75

3.6 多阶层关联规则76

3.7 关联规则的应用79

3.8 R语言与关联规则分析79

3.9 应用实例——电力公司配电事故定位的研究83

3.9.1 案例背景83

3.9.2 数据准备84

3.9.3 关联规则推导85

3.10 结论88

问题与讨论88

第4章 决策树分析93

4.1 决策树的建构93

4.1.1 数据准备94

4.1.2 决策树的分支准则96

4.1.3 决策树修剪104

4.1.4 规则提取106

4.2 决策树的算法107

4.2.1 CART108

4.2.2 C4.5 /C5.0108

4.2.3 CHAID109

4.3 决策树分类模型评估110

4.4 R语言与决策树分析112

4.4.1 CART决策树分析112

4.4.2 C5.0决策树分析114

4.4.3 CHAID决策树分析115

4.5 应用实例——建构cDNA生物芯片的数据挖掘模式117

4.5.1 案例背景117

4.5.2 数据准备117

4.5.3 生物芯片数据的决策树构建118

4.5.4 规则解释与评估119

4.6 结论120

问题与讨论120

第5章 人工神经网络127

5.1 人工神经网络的基本结构130

5.2 网络学习法132

5.3 反向传播人工神经网络134

5.3.1 网络架构134

5.3.2 学习算法136

5.3.3 反向传播人工神经网络步骤137

5.3.4 反向传播人工神经网络范例138

5.4 自组织映射网络139

5.4.1 网络架构140

5.4.2 学习算法142

5.4.3 SOM人工神经网络步骤143

5.4.4 自组织映射图网络范例143

5.5 自适应共振理论人工神经网络146

5.5.1 网络架构147

5.5.2 ART1网络算法148

5.5.3 适应性共振网络范例150

5.6 R语言与人工神经网络152

5.6.1 反向传播人工神经网络152

5.6.2 自组织映射网络154

5.6.3 自适应共振理论人工神经网络155

5.7 应用实例——半导体生产周期时间预测与管控158

5.7.1 案例简介158

5.7.2 数据分群159

5.7.3 数据配适与预测160

5.7.4 信息整合与敏感度分析161

5.7.5 案例小结162

5.8 结论163

问题与讨论163

第6章 聚类分析165

6.1 聚类分析法简介165

6.1.1 聚类分析的阶段166

6.1.2 相似度的衡量166

6.1.3 聚类分析方法169

6.2 层次聚类分析法170

6.3 划分聚类分析法174

6.3.1 K平均法174

6.3.2 K中心点法176

6.4 以密度为基础的分群算法179

6.5 以模式为基础的分群算法181

6.5.1 期望最大化算法181

6.5.2 自组织映射图网络182

6.6 R语言与聚类分析182

6.7 应用实例——黄光机台聚类分析184

6.7.1 案例简介184

6.7.2 验证两阶段分群算法185

6.7.3 案例小结187

6.8 结论187

问题与讨论188

第7章 朴素贝叶斯分类法与贝叶斯网络190

7.1 贝叶斯定理190

7.2 朴素贝叶斯分类法192

7.3 贝叶斯网络196

7.3.1 贝叶斯网络的理论基础196

7.3.2 贝叶斯网络的不一致性修正201

7.4 R语言与贝叶斯分类203

7.5 应用实例——电力公司馈线事故定位系统207

7.5.1 案例简介与问题架构207

7.5.2 数据整理与贝叶斯网络图构建208

7.5.3 给定贝叶斯推理网络的参数209

7.5.4 验证贝叶斯推理网络210

7.5.5 案例小结210

7.6 结论211

问题与讨论211

第8章 粗糙集理论215

8.1 粗糙集理论215

8.2 粗糙集理论基本概念215

8.2.1 信息系统与决策表216

8.2.2 等价关系216

8.2.3 近似空间217

8.2.4 近似集合的准确率218

8.2.5 分类的准确率与属性相依程度219

8.2.6 简化219

8.3 粗糙集理论产生分类规则222

8.4 粗糙集理论与其他分类方法的比较223

8.5 R语言与粗糙集理论224

8.5.1 决策表与等价关系225

8.5.2 近似空间225

8.5.3 简化与规则推演226

8.6 应用实例——TFT-LCD数组事故诊断227

8.6.1 案例简介227

8.6.2 分析过程227

8.6.3 案例小结230

8.7 结论231

问题与讨论231

第9章 预测与时间数据分析234

9.1 回归分析234

9.1.1 回归分析基本介绍234

9.1.2 参数估计237

9.1.3 回归模型解释与评估237

9.1.4 多重回归分析239

9.1.5 共线性239

9.2 逻辑回归240

9.2.1 概率与胜算240

9.2.2 逻辑回归模式240

9.3 时间序列分析242

9.4 时间数据的分析步骤243

9.5 模式选择与建立244

9.5.1 时间序列平滑法246

9.5.2 平稳型时间序列247

9.5.3 无定向型时间序列251

9.5.4 趋势型、季节型与介入事件型时间序列252

9.6 阶次选取与参数估计254

9.7 模式评估255

9.7.1 拟合优度检定255

9.7.2 预测误差衡量256

9.8 R语言与时间数据分析257

9.9 应用实例——半导体光罩需求预测261

9.9.1 案例简介与问题架构261

9.9.2 数据准备与数据处理261

9.9.3 需求波动侦测分析过程262

9.9.4 案例小结263

9.10 结论264

问题与讨论265

第10章 集成学习与支持向量机268

10.1 集成学习268

10.1.1 Bagging268

10.1.2 Boosting269

10.2 支持向量机272

10.2.1 可区分情况(separable case)272

10.2.2 不可分状况(non-separable case)274

10.2.3 非线性分类275

10.3 R语言与随机森林集成学习模型276

10.3.1 利用随机森林进行分类276

10.3.2 利用随机森林评估变量重要性277

10.4 结论278

问题与讨论278

第3篇 数据挖掘进阶运用281

第11章 商业智能281

11.1 商业智能概述281

11.2 应用实例——交通信息预测283

11.3 个案研究——人力资源数据挖掘283

11.3.1 案例说明283

11.3.2 分析过程284

11.3.3 案例小结291

11.4 应用实例——机票价格预测292

11.5 个案研究——产品需求预测292

11.5.1 半导体产品需求预测架构292

11.5.2 分析过程297

11.5.3 案例小结303

11.6 结论303

问题与讨论304

第12章 制造智能305

12.1 序言305

12.2 WAT参数特征提取与关联分析307

12.2.1 案例说明307

12.2.2 分析过程308

12.2.3 案例小结312

12.3 半导体CP测试数据挖掘与晶圆图样型分类312

12.3.1 案例背景312

12.3.2 分析过程313

12.3.3 案例小结318

12.4 低良率事故诊断与制程关联分析318

12.4.1 案例说明318

12.4.2 分析过程319

12.4.3 案例小结323

12.5 半导体制造管理的数据挖掘324

12.5.1 案例背景324

12.5.2 分析过程324

12.5.3 案例小结329

12.6 结论330

问题与讨论331

第13章 数字决策及商业分析与优化332

13.1 决策信息系统332

13.1.1 决策信息系统332

13.1.2 决策信息系统的架构333

13.1.3 应用实例——电性测试机台维修的决策支持系统334

13.2 商业分析与优化339

13.2.1 商业分析与优化339

13.2.2 商业分析与优化的基本要素340

13.2.3 商业分析与优化的应用341

13.3 数字决策342

13.4 结论343

问题与讨论344

参考文献345

热门推荐