图书介绍

深入理解大数据 大数据处理与编程实践2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

深入理解大数据 大数据处理与编程实践
  • 黄宜华主编;苗凯翔副主编 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111473251
  • 出版时间:2014
  • 标注页数:488页
  • 文件大小:73MB
  • 文件页数:522页
  • 主题词:数据管理-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

深入理解大数据 大数据处理与编程实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 Hadoop系统2

第1章 大数据处理技术简介2

1.1 并行计算技术简介2

1.1.1 并行计算的基本概念2

1.1.2 并行计算技术的分类6

1.1.3 并行计算的主要技术问题10

1.2 大数据处理技术简介13

1.2.1 大数据的发展背景和研究意义13

1.2.2 大数据的技术特点16

1.2.3 大数据研究的主要目标、基本原则和基本途径17

1.2.4 大数据计算模式和系统18

1.2.5 大数据计算模式的发展趋势21

1.2.6 大数据的主要技术层面和技术内容22

1.3 MapReduce并行计算技术简介25

1.3.1 MapReduce的基本概念和由来25

1.3.2 MapReduce的基本设计思想26

1.3.3 MapReduce的主要功能和技术特征28

1.4 Hadoop系统简介30

1.4.1 Hadoop的概述与发展历史30

1.4.2 Hadoop系统分布式存储与并行计算构架31

1.4.3 Hadoop平台的基本组成与生态系统33

1.4.4 Hadoop的应用现状和发展趋势37

第2章 Hadoop系统的安装与操作管理39

2.1 Hadoop系统安装方法简介39

2.2 单机和单机伪分布式Hadoop系统安装基本步骤39

2.2.1 安装和配置JDK40

2.2.2 创建Hadoop用户40

2.2.3 下载安装Hadoop40

2.2.4 配置SSH41

2.2.5 配置Hadoop环境42

2.2.6 Hadoop的运行43

2.2.7 运行测试程序43

2.2.8 查看集群状态44

2.3 集群分布式Hadoop系统安装基本步骤44

2.3.1 安装和配置JDK44

2.3.2 创建Hadoop用户45

2.3.3 下载安装Hadoop45

2.3.4 配置SSH45

2.3.5 配置Hadoop环境46

2.3.6 Hadoop的运行48

2.3.7 运行测试程序48

2.3.8 查看集群状态49

2.4 Hadoop MapReduce程序开发过程49

2.5 集群远程作业提交与执行53

2.5.1 集群远程作业提交和执行过程53

2.5.2 查看作业执行结果和集群状态53

第3章 大数据存储——分布式文件系统HDFS56

3.1 HDFS的基本特征与构架56

3.1.1 HDFS的基本特征57

3.1.2 HDFS的基本框架与工作过程57

3.2 HDFS可靠性设计60

3.2.1 HDFS数据块多副本存储设计60

3.2.2 HDFS可靠性的设计实现61

3.3 HDFS文件存储组织与读写63

3.3.1 文件数据的存储组织63

3.3.2 数据的读写过程65

3.4 HDFS文件系统操作命令68

3.4.1 HDFS启动与关闭68

3.4.2 HDFS文件操作命令格式与注意事项69

3.4.3 HDFS文件操作命令69

3.4.4 高级操作命令和工具77

3.5 HDFS基本编程接口与示例83

3.5.1 HDFS编程基础知识83

3.5.2 HDFS基本文件操作API84

3.5.3 HDFS基本编程实例87

第4章 Hadoop MapReduce并行编程框架91

4.1 MapReduce基本编程模型和框架91

4.1.1 MapReduce并行编程抽象模型91

4.1.2 MapReduce的完整编程模型和框架93

4.2 Hadoop MapReduce基本构架与工作过程96

4.2.1 Hadoop系统构架和MapReduce程序执行过程96

4.2.2 Hadoop MapReduce执行框架和作业执行流程98

4.2.3 Hadoop MapReduce作业调度过程和调度方法102

4.2.4 MapReduce执行框架的组件和执行流程106

4.3 Hadoop MapReduce主要组件与编程接口107

4.3.1 数据输入格式InputFormat107

4.3.2 输入数据分块InputSplit109

4.3.3 数据记录读入RecordReader110

4.3.4 Mapper类112

4.3.5 Combiner114

4.3.6 Partitioner115

4.3.7 Sort116

4.3.8 Reducer类119

4.3.9 数据输出格式OutputFormat120

4.3.10 数据记录输出RecordWriter122

第5章 分布式数据库HBase123

5.1 HBase简介123

5.1.1 为什么需要NoSQL数据库123

5.1.2 HBase的作用和功能特点125

5.2 HBase的数据模型126

5.2.1 HBase的基本数据模型126

5.2.2 HBase的查询模式128

5.2.3 HBase表设计129

5.3 HBase的基本构架与数据存储管理方法132

5.3.1 HBase在Hadoop生态中的位置和关系132

5.3.2 HBase的基本组成结构133

5.3.3 HBase Region133

5.3.4 Region Server135

5.3.5 HBase的总体组成结构138

5.3.6 HBase的寻址和定位139

5.3.7 HBase节点的上下线管理142

5.4 HBase安装与操作145

5.4.1 安装一个单机版的HBase145

5.4.2 HBase Shell操作命令146

5.4.3 基于集群的HBase安装和配置149

5.5 HBase的编程接口和编程示例152

5.5.1 表创建编程接口与示例152

5.5.2 表数据更新编程接口与示例153

5.5.3 数据读取编程接口与示例155

5.5.4 HBase MapReduce支持和编程示例157

5.6 HBase的读写操作和特性161

5.6.1 HBase的数据写入161

5.6.2 HBase的数据读取171

5.7 其他HBase功能173

5.7.1 Coprocessor173

5.7.2 批量数据导入BulkLoad176

第6章 分布式数据仓库Hive179

6.1 Hive的作用与结构组成179

6.2 Hive的数据模型181

6.2.1 Hive的数据存储模型181

6.2.2 Hive的元数据存储管理182

6.2.3 Hive的数据类型183

6.3 Hive的安装184

6.3.1 下载Hive安装包184

6.3.2 配置环境变量184

6.3.3 创建Hive数据文件目录185

6.3.4 修改Hive配置文件185

6.4 Hive查询语言——HiveQL188

6.4.1 DDL语句188

6.4.2 DML语句189

6.4.3 SELECT查询语句190

6.4.4 数据表操作语句示例190

6.4.5 分区的使用192

6.4.6 桶的使用193

6.4.7 子查询194

6.4.8 Hive的优化和高级功能194

6.5 Hive JDBC编程接口与程序设计196

第7章 Intel Hadoop系统优化与功能增强200

7.1 Intel Hadoop系统简介200

7.1.1 Intel Hadoop系统的主要优化和增强功能200

7.1.2 Intel Hadoop的系统构成与组件201

7.2 Intel Hadoop系统的安装和管理202

7.3 Intel Hadoop HDFS的优化和功能扩展202

7.3.1 HDFS的高可用性203

7.3.2 Intel Hadoop系统高可用性配置服务204

7.3.3 Intel Hadoop系统高可用性配置服务操作206

7.3.4 自适应数据块副本调整策略208

7.4 Intel Hadoop HBase的功能扩展和编程示例211

7.4.1 HBase大对象存储(LOB)211

7.4.2 加盐表212

7.4.3 HBase跨数据中心大表213

7.5 Intel Hadoop Hive的功能扩展和编程示例216

7.5.1 开源Hive的不足216

7.5.2 IntelHadoop“HiveoverHBase”优化设计216

7.5.3 Hive overHBase的架构216

第二部分 MapReduce的编程和算法设计220

第8章 MapReduce基础算法程序设计220

8.1 WordCount220

8.1.1 WordCount算法编程实现220

8.2 矩阵乘法223

8.2.1 矩阵乘法原理和实现思路223

8.2.2 矩阵乘法的MapReduce程序实现224

8.3 关系代数运算227

8.3.1 选择操作227

8.3.2 投影操作228

8.3.3 交运算229

8.3.4 差运算230

8.3.5 自然连接231

8.4 单词共现算法233

8.4.1 单词共现算法的基本设计233

8.4.2 单词共现算法的实现234

8.4.3 单词共现算法实现中的细节问题235

8.5 文档倒排索引237

8.5.1 简单的文档倒排索引237

8.5.2 带词频等属性的文档倒排索引239

8.6 PageRank网页排名算法242

8.6.1 PageRank的简化模型243

8.6.2 PageRank的随机浏览模型244

8.6.3 PageRank的MapReduce实现245

8.7 专利文献分析算法249

8.7.1 构建专利被引用列表250

8.7.2 专利被引用次数统计251

8.7.3 专利被引用次数直方图统计252

8.7.4 按照年份或国家统计专利数254

第9章 MapReduce高级程序设计技术256

9.1 简介256

9.2 复合键值对的使用257

9.2.1 把小的键值对合并成大的键值对257

9.2.2 巧用复合键让系统完成排序259

9.3 用户定制数据类型262

9.3.1 Hadoop内置的数据类型263

9.3.2 用户自定义数据类型的实现263

9.4 用户定制数据输入输出格式264

9.4.1 Hadoop内置的数据输入格式与RecordReader265

9.4.2 用户定制数据输入格式与RecordReader265

9.4.3 Hadoop内置的数据输出格式与RecordWriter269

9.4.4 用户定制数据输出格式与RecordWriter269

9.4.5 通过定制数据输出格式实现多集合文件输出270

9.5 用户定制Partitioner和Combiner271

9.5.1 用户定制Partitioner272

9.5.2 用户定制Combiner273

9.6 组合式MapReduce计算作业274

9.6.1 迭代MapReduce计算任务274

9.6.2 顺序组合式MapReduce作业的执行275

9.6.3 具有复杂依赖关系的组合式MapReduce作业的执行275

9.6.4 MapReduce前处理和后处理步骤的链式执行276

9.7 多数据源的连接278

9.7.1 基本问题数据示例279

9.7.2 用DataJoin类实现Reduce端连接279

9.7.3 用全局文件复制方法实现Map端连接285

9.7.4 带Map端过滤的Reduce端连接287

9.7.5 多数据源连接解决方法的限制288

9.8 全局参数/数据文件的传递与使用288

9.8.1 全局作业参数的传递288

9.8.2 查询全局的MapReduce作业属性290

9.8.3 全局数据文件的传递291

9.9 关系数据库的连接与访问292

9.9.1 从数据库中输入数据292

9.9.2 向数据库中输出计算结果292

第10章 MapReduce数据挖掘基础算法295

10.1 K-Means聚类算法295

10.1.1 K-Means聚类算法简介295

10.1.2 基于MapReduce的K-Means算法的设计实现297

10.2 KNN最近邻分类算法300

10.2.1 KNN最近邻分类算法简介300

10.2.2 基于MapReduce的KNN算法的设计实现301

10.3 朴素贝叶斯分类算法303

10.3.1 朴素贝叶斯分类算法简介303

10.3.2 朴素贝叶斯分类并行化算法的设计304

10.3.3 朴素贝叶斯分类并行化算法的实现306

10.4 决策树分类算法310

10.4.1 决策树分类算法简介310

10.4.2 决策树并行化算法的设计313

10.4.3 决策树并行化算法的实现317

10.5 频繁项集挖掘算法327

10.5.1 频繁项集挖掘问题描述327

10.5.2 Apriori频繁项集挖掘算法简介328

10.5.3 Apriori频繁项集挖掘并行化算法的设计329

10.5.4 Apriori频繁项集挖掘并行化算法的实现331

10.5.5 基于子集求取的频繁项集挖掘算法的设计335

10.5.6 基于子集求取的频繁项集挖掘并行化算法的实现336

10.6 隐马尔科夫模型和最大期望算法340

10.6.1 隐马尔科夫模型的基本描述340

10.6.2 隐马尔科夫模型问题的解决方法341

10.6.3 最大期望算法概述345

10.6.4 并行化隐马尔科夫算法设计345

10.6.5 隐马尔科夫算法的并行化实现348

第11章 大数据处理算法设计与应用编程案例352

11.1 基于MapReduce的搜索引擎算法352

11.1.1 搜索引擎工作原理简介353

11.1.2 基于MapReduce的文档颚处理354

11.1.3 基于MapReduce的文档倒排索引构建356

11.1.4 建立Web信息查询服务363

11.2 基于MapReduce的大规模短文本多分类算法365

11.2.1 短文本多分类算法工作原理简介365

11.2.2 并行化分类训练算法设计实现366

11.2.3 并行化分类预测算法设计实现369

11.3 基于MapReduce的大规模基因序列比对算法371

11.3.1 基因序列比对算法简介371

11.3.2 并行化BLAST算法的设计与实现373

11.4 基于MapReduce的大规模城市路径规划算法379

11.4.1 问题背景和要求379

11.4.2 数据输入380

11.4.3 程序设计要求384

11.4.4 算法设计总体框架和处理过程385

11.4.5 并行化算法的设计与实现386

11.5 基于MapReduce的大规模重复文档检测算法396

11.5.1 重复文档检测问题描述396

11.5.2 重复文档检测方法和算法设计397

11.5.3 重复文档检测并行化算法设计实现401

11.6 基于内容的并行化图像检索算法与引擎404

11.6.1 基于内容的图像检索问题概述404

11.6.2 图像检索方法和算法设计思路405

11.6.3 并行化图像检索算法实现407

11.7 基于MapReduce的大规模微博传播分析412

11.7.1 微博分析问题背景与并行化处理过程413

11.7.2 并行化微博数据获取算法的设计实现414

11.7.3 并行化微博数据分析算法的设计实现416

11.8 基于关联规则挖掘的图书推荐算法422

11.8.1 图书推荐和关联规则挖掘简介422

11.8.2 图书频繁项集挖掘算法设计与数据获取423

11.8.3 图书关联规则挖掘并行化算法实现425

11.9 基于Hadoop的城市智能交通综合应用案例432

11.9.1 应用案例概述432

11.9.2 案例一:交通事件检测433

11.9.3 案例二:交通流统计分析功能435

11.9.4 案例三:道路旅行时间分析435

11.9.5 案例四:HBase实时查询436

11.9.6 案例五:HBase Endpoint快速统计437

11.9.7 案例六:利用Hive高速统计439

附 录442

附录A OpenMP并行程序设计简介442

附录B MPI并行程序设计简介448

附录C 英特尔Apache Hadoop系统安装手册457

参考文献486

热门推荐