图书介绍

Spark大数据实例开发教程2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

王家林，徐香玉等编著著
出版社：北京：机械工业出版社
ISBN：9787111519096
出版时间：2016
标注页数：332页
文件大小：126MB
文件页数：341页
主题词：数据处理软件

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：902bc4f59f5a1c93b122dfa39dd57284

下载说明

Spark大数据实例开发教程PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章 Spark简介1

1.1 什么是Spark2

1.2 Spark生态圈2

1.2.1 伯克利数据分析协议栈2

1.2.2 Spark开源社区发展3

1.3 RDD编程模型3

1.3.1 RDD抽象概念3

1.3.2 RDD的操作5

1.3.3 RDD的依赖关系6

1.3.4 一个典型的DAG示意图6

第2章 Spark RDD实践案例与解析8

2.1 Spark应用程序部署9

2.1.1 Spark应用的基本概念9

2.1.2 应用程序的部署方式10

2.2 RDD数据的输入、处理、输出的基本案例与解析14

2.2.1 集群环境的搭建15

2.2.2 交互式工具的启动19

2.2.3 文本数据的ETL案例实践与解析25

2.2.4 文本数据的初步统计案例实践与解析28

2.2.5 文本数据统计结果的持久化案例实践与解析31

2.2.6 RDD的Lineage关系的案例与源码解析33

2.2.7 RDD的持久化案例与解析43

2.2.8 RDD的构建案例与解析48

2.2.9 分区数设置的案例与源码解析49

2.3 RDD API的应用案例与解析53

2.3.1 如何查找RDD API的隐式转换54

2.3.2 RDD［T］的分区相关的API57

2.3.3 RDD［T］常用的聚合API60

2.3.4 DoubleRDDFunctions（self:RDD［Double］）常用的API63

2.3.5 PairRDDFunctions［K,V］聚合相关的API66

2.3.6 RDD相互间操作的API71

2.3.7 PairRDDFunctions［K,V］间的相关API76

2.3.8 OrderedRDDFunctions［K,V,P＜：Product2［K,V］］常用的API77

2.4 Spark应用程序构建78

2.4.1 基于SBT构建Spark应用程序的实例79

2.4.2 基于IDEA构建Spark应用程序的实例81

2.4.3 Spark提交应用的调试实例93

2.5 移动互联网数据分析案例与解析98

2.5.1 移动互联网数据的准备99

2.5.2 移动互联网数据分析与解析100

2.6 Spark RDD实践中的常见问题与解答103

第3章 Spark SQL实践案例与解析105

3.1 Spark SQL概述106

3.2 DataFrame处理的案例与解析106

3.2.1 DataFrame编程模型107

3.2.2 DataFrame基本操作案例与解析107

3.2.3 DataFrame与RDD之间的转换案例与解析122

3.2.4 缓存表（列式存储）的案例与解析127

3.2.5 DataFrame API的应用案例与分析132

3.3 Spark SQL处理各种数据源的案例与解析158

3.3.1 通用的加载／保存功能的案例与解析160

3.3.2 Parquet文件处理的案例与解析165

3.3.3 JSON数据集操作的案例与解析167

3.3.4 操作Hive表的案例与解析170

3.3.5 使用JDBC操作其他数据库的案例与解析185

3.3.6 集成Hive数据仓库的案例与解析191

3.4 基于Hive的人力资源系统数据处理案例与解析197

3.4.1 人力资源系统的数据库与表的构建199

3.4.2 人力资源系统的数据的加载201

3.4.3 人力资源系统的数据的查询202

第4章 Spark Streaming实践案例与解析206

4.1 Spark Streaming概述207

4.2 Spark Streaming基础概念208

4.3 企业信息实时处理的案例与解析208

4.3.1 处理TCP数据源的案例与解析209

4.3.2 处理HDFS文件数据源的案例与解析225

4.3.3 处理Kafka数据源的准备工作229

4.3.4 基于Receiver读取Kafka数据的案例与解析232

4.3.5 直接读取（无Receiver）Kafka数据的案例与解析243

4.3.6 处理Flume数据源的实践准备253

4.3.7 基于Flume风格的推送数据案例与解析254

4.3.8 定制FlumeSink的拉取数据案例与解析261

4.4 性能调优271

4.4.1 减少批处理的时间271

4.4.2 设置正确的批间隔273

4.4.3 内存调优274

第5章 Tachyon实践案例与解析276

5.1 Tachyon概述277

5.2 重新编译部署包279

5.2.1 重新编译Tachyon的部署包279

5.2.2 重新编译Spark的部署包279

5.3 Tachyon部署的案例与解析283

5.3.1 单机模式部署的案例与解析283

5.3.2 集群模式部署的案例与解析291

5.3.3 集群Master容错部署的案例与解析294

5.4 Tachyon配置的案例与解析299

5.4.1 底层存储系统的配置案例与解析299

5.4.2 配置属性与解析302

5.5 命令行接口的案例与解析306

5.5.1 命令行接口的说明306

5.5.2 命令行接口的案例实践与解析308

5.6 同步底层文件系统的案例与解析312

5.6.1 同步HDFS底层文件系统的案例与解析313

5.6.2 同步本地底层文件系统的案例与解析314

5.7 基于Tachnyon运行的案例与解析316

5.7.1 基于Tachyon运行Spark的案例与解析316

5.7.2 基于Tachyon运行Hadoop MR的案例与解析327

附录 Spark 1.4 版本新特性330