图书介绍

面向大规模应用的高性能计算编程优化2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

面向大规模应用的高性能计算编程优化
  • 文梅等著 著
  • 出版社: 北京:科学出版社
  • ISBN:9787030462596
  • 出版时间:2015
  • 标注页数:191页
  • 文件大小:73MB
  • 文件页数:204页
  • 主题词:程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

面向大规模应用的高性能计算编程优化PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 绪论1

1.1 大规模应用对高性能计算的迫切需求1

1.2 高性能计算硬件基础3

1.2.1 多核通用处理器3

1.2.2 众核加速器4

1.2.3 加速器增强型异构系统5

1.3 高性能计算编程挑战与研究现状7

1.3.1 高性能计算编程挑战7

1.3.2 高性能计算编程研究现状9

参考文献13

第2章 高性能计算并行基础17

2.1 并行计算分类17

2.1.1 数据并行17

2.1.2 任务并行18

2.2 并行计算的度量19

2.2.1 性能20

2.2.2 扩展性22

2.3 并行程序测试集23

2.3.1 Linpack23

2.3.2 13类基准测试分类体系24

2.3.3 其他测试集32

参考文献34

第3章 并行程序设计36

3.1 共享存储计算机36

3.1.1 共享存储体系结构36

3.1.2 OpenMP编程36

3.1.3 实例40

3.2 分布式存储计算机45

3.2.1 分布式存储体系结构45

3.2.2 MPI消息传递机制46

3.2.3 实例47

3.3 大规模并行计算52

3.3.1 混合编程模型52

3.3.2 大规模系统节点间通信优化55

参考文献58

第4章 GPU并行计算59

4.1 GPU体系结构59

4.1.1 GPU的发展历程59

4.1.2 GPU硬件体系结构62

4.2 CUDA编程模型65

4.2.1 程序结构65

4.2.2 存储模型67

4.3 性能优化68

4.3.1 大规模线程并行68

4.3.2 全局带宽的利用69

4.3.3 SM片上资源优化70

4.4 单节点多GPU编程71

4.4.1 单线程多GPU编程72

4.4.2 多线程多GPU编程74

4.4.3 多GPU P2P直接通信模式75

4.5 大规模CPU-GPU异构计算77

参考文献79

第5章 MIC并行计算81

5.1 MIC体系结构81

5.1.1 MIC体系结构概述81

5.1.2 MIC计算核82

5.1.3 MIC环形网络84

5.1.4 MIC存储层次85

5.2 MIC编程模式86

5.2.1 offload编程模式87

5.2.2 native编程模式90

5.2.3 底层编程接口91

5.3 性能优化策略93

5.3.1 并行优化93

5.3.2 访存优化97

5.3.3 通信优化99

5.4 节点内多MIC并行计算100

5.4.1 基于stencil计算的任务划分100

5.4.2 基于pragma卸载模式的优化101

5.4.3 基于系统级接口的卸载模式104

5.4.4 基于MPI-OpenMP的对称模式109

5.4.5 不同卸载模式的比较110

5.5 大规模CPU-MIC并行计算111

5.5.1 大规模CPU-MIC异构系统111

5.5.2 基于MIC加速器的大规模异构系统的编程模型112

5.5.3 基于MIC加速器的大规模异构系统的并行优化113

5.6 本章小结120

参考文献120

第6章 面向贝叶斯进化分析的大规模异构混合计算123

6.1 引言123

6.2 背景125

6.2.1 MrBayes概述125

6.2.2 同时利用CPU和GPU的挑战126

6.3 方法127

6.3.1 oMC3算法127

6.3.2 负载划分策略129

6.4 结果和讨论131

6.4.1 实验设置131

6.4.2 单计算节点上的性能132

6.4.3 验证负载划分策略134

6.4.4 多节点扩展性135

6.5 小结136

参考文献136

第7章 基于CPU-GPU异构系统的双岩沉降模拟138

7.1 概述138

7.2 数学模型和数值方法139

7.3 并行实现设计141

7.3.1 基于MPI的CPU-only实现142

7.3.2 GPU-only实现143

7.3.3 CPU-GPU混合实现145

7.4 实验评估与分析149

7.4.1 实验设置和结果149

7.4.2 单GPU性能比较与分析151

7.4.3 扩展性评测152

7.4.4 时间分布156

7.5 小结158

参考文献158

第8章 接近纳米级精度的钙动力模拟并行计算160

8.1 引言160

8.2 应用描述161

8.2.1 数学模型161

8.2.2 数值方法163

8.3 目标体系结构164

8.4 实现和优化165

8.4.1 整体策略165

8.4.2 单协处理器利用166

8.4.3 单节点利用168

8.4.4 多节点效率168

8.5 性能研究169

8.5.1 单协处理器性能169

8.5.2 单节点性能170

8.5.3 弱扩展性170

8.5.4 强扩展性171

8.6 模拟结果172

8.7 小结175

参考文献176

第9章 未来的高性能计算178

9.1 E级计算的挑战178

9.2 Scale up与Scale out的比较180

9.3 未来可能的发展方向181

9.3.1 大规模机器学习181

9.3.2 热点方向184

参考文献185

热门推荐