图书介绍

Hadoop大数据技术与应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

杨治明，许桂秋主编；李海涛，杨馥如，杨汉波，高广银，丁勇，刘前副主编著
出版社：北京：人民邮电出版社
ISBN：9787115503534
出版时间：2019
标注页数：287页
文件大小：164MB
文件页数：297页
主题词：数据处理软件－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：1b1850a4bbefaab7df40d8860a828a84

下载说明

Hadoop大数据技术与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章初识Hadoop大数据技术1

1.1 大数据技术概述1

1.1.1 大数据产生的背景1

1.1.2 大数据的定义2

1.1.3 大数据技术的发展2

1.2 Google的“三驾马车”3

1.2.1 GFS的思想3

1.2.2 MapReduce的思想4

1.2.3 BigTable的思想6

1.3 Hadoop概述8

1.3.1 Hadoop对Google公司三篇论文思想的实现8

1.3.2 Hadoop的发展历史9

1.3.3 Hadoop版本的演变11

1.3.4 Hadoop的发行版本12

1.3.5 Hadoop的特点12

1.4 Hadoop生态圈12

1.5 Hadoop的典型应用场景与应用架构13

1.5.1 Hadoop的典型应用场景13

1.5.2 Hadoop的典型应用架构14

习题15

第2章 Hadoop环境设置16

2.1 安装前准备16

2.1.1 安装虚拟机17

2.1.2 安装Ubuntu操作系统20

2.1.3 关闭防火墙22

2.1.4 SSH安装22

2.1.5 安装Xshell及Xftp22

2.1.6 安装JDK24

2.1.7 下载Hadoop并解压25

2.1.8 克隆主机27

2.2 Hadoop的安装28

2.2.1 安装单机模式28

2.2.2 安装伪分布式模式29

2.2.3 安装完全分布式模式35

习题41

实验搭建Hadoop伪分布式模式环境42

第3章 HDFS44

3.1 HDFS简介44

3.2 HDFS的组成与架构45

3.2.1 NameNode45

3.2.2 DataNode46

3.2.3 SecondaryNameNode46

3.3 HDFS的工作机制47

3.3.1 机架感知与副本冗余存储策略47

3.3.2 文件读取49

3.3.3 文件写人50

3.3.4 数据容错52

3.4 HDFS操作53

3.4.1 通过Web界面进行HDFS操作53

3.4.2 通过HDFS Shell进行HDFS操作54

3.4.3 通过HDFS API进行HDFS操作60

3.5 HDFS的高级功能68

3.5.1 安全模式68

3.5.2 回收站69

3.5.3 快照70

3.5.4 配额71

3.5.5 高可用性71

3.5.6 联邦72

习题74

实验1 通过Shell命令访问HDFS74

实验2 熟悉基于IDEA+Maven的Java开发环境77

实验3 通过API访问HDFS86

第4章 YARN90

4.1 YARN产生的背景90

4.2 初识YARN92

4.3 YARN的架构93

4.3.1 YARN架构概述93

4.3.2 YARN中应用运行的机制94

4.3.3 YARN中任务进度的监控94

4.3.4 MapReduce1与YARN的组成对比95

4.4 YARN的调度器95

4.4.1 先进先出调度器95

4.4.2 容器调度器96

4.4.3 公平调度器97

4.4.4 三种调度器的比较98

习题98

第5章 MapReduce99

5.1 MapReduce概述99

5.1.1 MapReduce是什么99

5.1.2 MapReduce的特点99

5.1.3 MapReduce不擅长的场景100

5.2 MapReduce编程模型100

5.2.1 MapReduce编程模型概述100

5.2.2 MapReduce编程实例101

5.3 MapReduce编程进阶112

5.3.1 MapReduce的输人格式112

5.3.2 MapReduce的输出格式114

5.3.3 分区115

5.3.4 合并118

5.4 MapReduce的工作机制119

5.4.1 MapReduce作业的运行机制119

5.4.2 进度和状态的更新120

5.4.3 Shuffle121

5.5 MapReduce编程案例122

5.5.1 排序122

5.5.2 去重126

5.5.3 多表查询127

习题129

实验1 分析和编写WordCount程序130

实验2 MapReduce序列化、分区实验131

实验3 使用MapReduce求出各年销售笔数、各年销售总额134

实验4 使用MapReduce统计用户在搜狗上的搜索数据136

第6章 HBase、Hive、Pig139

6.1 HBase139

6.1.1 行式存储与列式存储139

6.1.2 HBase简介140

6.1.3 HBase的数据模型141

6.1.4 Haase的物理模型143

6.1.5 HBase的系统架构144

6.1.6 HBase的安装147

6.1.7 访问HBase152

6.2 Hive157

6.2.1 安装Hive157

6.2.2 Hive的架构与工作原理160

6.2.3 Hive的数据类型与存储格式163

6.2.4 Hive的数据模型167

6.2.5 查询数据169

6.2.6 用户定义函数170

6.3 Pig171

6.3.1 Pig概述171

6.3.2 安装Pig172

6.3.3 Pig Latin编程语言172

6.3.4 Pig代码实例177

6.3.5 用户自定义函数179

习题181

实验1 HBase实验―安装和配置（可选）181

实验2 HBase实验―通过HBase Shell访问HBase（可选）185

实验3 HBase实验―通过Java API访问HBase187

实验4 HBase实验―通过Java API开发基于HBase的MapReduce程序189

实验5 Hive实验―Metastore采用Local模式（MySQL数据库）搭建Hive环境（可选）191

实验6 Hive实验―Hive常用操作193

实验7 Pig实验―安装和使用Pig（可选）194

实验8 Pig实验―使用Pig Latin操作员工表和部门表195

第7章 Flume198

7.1 Flume产生的背景198

7.2 Flume简介198

7.3 Flume的安装199

7.4 Flume的架构200

7.5 Flume的应用201

7.5.1 Flume的组件类型及其配置项201

7.5.2 Flume的配置和运行方法206

7.5.3 Flume配置示例207

7.6 Flume的工作方式209

习题210

实验1 Flume的配置与使用1——Avro Source + Memory Channel Logger Sink211

实验2 Flume的配置与使用2——Syslogtcp Source + MemoryChannel + HDFS Sink212

实验3 Flume的配置与使用3——Exec Source + Memory Channel +Logger Sink213

第8章 Sqoop214

8.1 Sqoop背景简介214

8.2 Sqoop的基本原理215

8.3 Sqoop的安装与部署216

8.3.1 下载与安装216

8.3.2 配置Sqoop217

8.4 Sqoop应用219

8.4.1 列出MySQL数据库的基本信息219

8.4.2 MySQL和HDFS数据互导219

8.4.3 MySQL和Hive数据互导220

习题221

实验Sqoop常用功能的使用222

第9章 ZooKeeper227

9.1 ZooKeeper简介227

9.2 ZooKeeper的安装228

9.2.1 单机模式228

9.2.2 集群模式229

9.3 ZooKeeper的基本原理231

9.3.1 Paxos算法231

9.3.2 Zab算法232

9.3.3 ZooKeeper的架构232

9.3.4 ZooKeeper的数据模型233

9.4 ZooKeeper的简单操作235

9.4.1 通过ZooKeeper Shell命令操作ZooKeeper235

9.4.2 通过Zoolnspector 工具操作ZooKeeper238

9.4.3 通过Java API操作ZooKeeper238

9.5 ZooKeeper的特性239

9.5.1 会话239

9.5.2 临时节点240

9.5.3 顺序节点240

9.5.4 事务操作241

9.5.5 版本号241

9.5.6 监视242

9.6 ZooKeeper的应用场景243

9.6.1 Master选举244

9.6.2 分布式锁245

习题246

实验ZooKeeper的3种访问方式246

第10章 Ambari249

10.1 Ambari简介249

10.1.1 背景249

10.1.2 Ambari的主要功能250

10.2 Ambari的安装250

10.2.1 安装前准备250

10.2.2 安装Ambari254

10.3 利用Ambari管理Hadoop集群257

10.3.1 安装与配置HDP集群258

10.3.2 节点的扩展264

10.3.3 启用HA267

10.4 Ambari的架构和工作原理271

10.4.1 Ambari的总体架构271

10.4.2 Ambari Agent272

10.4.3 Ambari Server272

习题273

第11章 Mahout274

11.1 Mahout简介274

11.1.1 什么是Mahout274

11.1.2 Mahout能做什么275

11.2 Taste简介276

11.2.1 DataModel276

11.2.2 Similarity277

11.2.3 UserNeighborhood277

11.2.4 Recommender277

11.2.5 RecommenderEvaluator277

11.2.6 RecommenderlRStatsEvaluator278

11.3 使用Taste构建推荐系统278

11.3.1 创建Maven项目278

11.3.2 导入Mahout依赖278

11.3.3 获取电影评分数据278

11.3.4 编写基于用户的推荐279

11.3.5 编写基于物品的推荐280

11.3.6 评价推荐模型281

11.3.7 获取推荐的查准率和查全率281

习题282

实验基于Mahout的电影推荐系统283

综合实验搜狗日志查询分析（MapReduce+Hive综合实验）284

参考文献287