图书介绍
Hadoop数据分析2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- (美)本杰明·班福特,珍妮·基姆著;王纯超译 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115479648
- 出版时间:2018
- 标注页数:212页
- 文件大小:28MB
- 文件页数:231页
- 主题词:数据处理软件
PDF下载
下载说明
Hadoop数据分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 分布式计算入门2
第1章 数据产品时代2
1.1什么是数据产品2
1.2使用Hadoop构建大规模数据产品4
1.2.1利用大型数据集4
1.2.2数据产品中的Hadoop5
1.3数据科学流水线和Hadoop生态系统6
1.4小结8
第2章 大数据操作系统9
2.1基本概念10
2.2 Hadoop架构11
2.2.1 Hadoop集群12
2.2.2 HDFS14
2.2.3 YA RN15
2.3使用分布式文件系统16
2.3.1基本的文件系统操作16
2.3.2 HDFS文件权限18
2.3.3其他HDFS接口19
2.4使用分布式计算20
2.4.1 MapReduce:函数式编程模型20
2.4.2 MapReduce:集群上的实现22
2.4.3不止一个MapReduce:作业链27
2.5向YARN提交MapReduce作业28
2.6 小结30
第3章 Python框架和Hadoop Streaming31
3.1 Hadoop Streaming32
3.1.1使用Streaming在CSV数据上运行计算34
3.1.2执行Streaming作业38
3.2 Python的MapReduce框架39
3.2.1短语计数42
3.2.2其他框架45
3.3 MapReduce进阶46
3.3.1 combiner46
3.3.2 partioner47
3.3.3作业链47
3.4小结50
第4章 Spark内存计算52
4.1 Spark基础53
4.1.1 Spark栈54
4.1.2 RDD55
4.1.3使用RDD编程56
4.2基于PySpark的交互性Spark59
4.3编写Spark应用程序61
4.4小结67
第5章 分布式分析和模式69
5.1键计算70
5.1.1复合键71
5.1.2键空间模式74
5.1.3 pair与stripe78
5.2设计模式80
5.2.1概要81
5.2.2索引85
5.2.3过滤90
5.3迈向最后一英里分析95
5.3.1模型拟合96
5.3.2模型验证97
5.4小结98
第二部分 大数据科学的工作流和工具102
第6章 数据挖掘和数据仓储102
6.1 Hive结构化数据查询103
6.1.1 Hive命令行接口(CLI)103
6.1.2 Hive查询语言104
6.1.3 Hive数据分析108
6.2 HBase113
6.2.1 NoSQL与列式数据库114
6.2.2 HBase实时分析116
6.3小结122
第7章 数据采集123
7.1使用Sqoop导入关系数据124
7.1.1从MySQL导入HDFS124
7.1.2从MySQL导入Hive126
7.1.3从MySQL导入HBase128
7.2使用Flume获取流式数据130
7.2.1 Flume数据流130
7.2.2使用Flume获取产品印象数据133
7.3小结136
第8章 使用高级API进行分析137
8.1 Pig137
8.1.1 Pig Latin138
8.1.2数据类型142
8.1.3关系运算符142
8.1.4用户定义函数143
8.1.5 Pig小结144
8.2 Spark高级API144
8.2.1 Spark SQL146
8.2.2 DataFrame148
8.3小结153
第9章 机器学习154
9.1使用Spark进行可扩展的机器学习154
9.1.1协同过滤156
9.1.2分类161
9.1.3聚类163
9.2小结166
第10章 总结:分布式数据科学实战167
10.1数据产品生命周期168
10.1.1数据湖泊169
10.1.2数据采集171
10.1.3计算数据存储172
10.2机器学习生命周期173
10.3小结175
附录A创建Hadoop伪分布式开发环境176
附录B 安装Hadoop生态系统产品184
术语表193
关于作者211
关于封面211
热门推荐
- 833047.html
- 104138.html
- 1096170.html
- 2885052.html
- 3261333.html
- 2961362.html
- 2496824.html
- 2078952.html
- 2761302.html
- 1435542.html
- http://www.ickdjs.cc/book_3447477.html
- http://www.ickdjs.cc/book_1656743.html
- http://www.ickdjs.cc/book_662075.html
- http://www.ickdjs.cc/book_2990565.html
- http://www.ickdjs.cc/book_3207467.html
- http://www.ickdjs.cc/book_312484.html
- http://www.ickdjs.cc/book_2891077.html
- http://www.ickdjs.cc/book_986519.html
- http://www.ickdjs.cc/book_1441256.html
- http://www.ickdjs.cc/book_727681.html