图书介绍

深入搜索引擎 海量信息的压缩、索引和查询2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

深入搜索引擎 海量信息的压缩、索引和查询
  • 艾伦H·威顿,亚里斯蒂尔·莫夫特著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121084911
  • 出版时间:2009
  • 标注页数:540页
  • 文件大小:106MB
  • 文件页数:564页
  • 主题词:互联网络-情报检索-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

深入搜索引擎 海量信息的压缩、索引和查询PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 概览1

1.1 文档数据库(document databases)7

1.2 压缩(compression)10

1.3 索引(indexes)12

1.4 文档索引16

1.5 MG海量文档管理系统20

1.6 进一步阅读21

第2章 文本压缩23

2.1 模型26

2.2 自适应模型29

2.3 哈夫曼编码32

范式哈夫曼编码38

计算哈夫曼编码长度44

总结51

2.4 算术编码51

算术编码是如何工作的53

实现算术编码56

保存累积计数59

2.5 符号模型61

部分匹配预测61

块排序压缩64

动态马尔科夫压缩69

基于单字的压缩71

2.6 字典模型73

自适应字典编码器的LZ77系列74

LZ77的Gzip变体78

自适应字典编码器的LZ78系列79

LZ78的LZW变体81

2.7 同步84

创造同步点84

自同步编码87

2.8 性能比较89

压缩性能91

压缩速度94

其他性能方面的考虑97

2.9 进一步阅读98

第3章 索引102

3.1 样本文档集合106

3.2 倒排文件索引110

3.3 压缩倒排文件115

无参模型(Nonparameterized models)117

全局贝努里模型120

全局观测频率模型(Global observed frequency model)123

局部贝努里模型(Local Bernoulli model)124

有偏贝努里模型(Skewed Bernoulli model)125

局部双曲模型(Local hyperbolic model)127

局部观测频率模型(Local observed frequency model)128

上下文相关压缩(Context-sensitive compression)130

3.4 索引压缩方法的效果132

3.5 签名文件和位图134

签名文件135

位片签名文件(Bitsliced signature files)139

签名文件分析144

位图147

签名文件和位图的压缩148

3.6 索引方法的比较151

3.7 大小写折叠、词根化和停用词153

大小写折叠154

词根化154

影响索引长度的因素155

停用词(stop word)156

3.8 进一步阅读159

第4章 查询162

4.1 访问字典的方法166

访问数据结构167

前端编码(Front coding)170

最小完美哈希函数173

完美哈希函数的设计176

基于磁盘的字典存储181

4.2 部分指定的查询术语182

字符串暴力匹配(Brute-force string matching)182

用n-gram索引183

循环字典(Rotated lexicon)184

4.3 布尔查询(Boolean Query)186

合取查询(conjunctive query)187

术语处理顺序188

随机访问和快速查找189

分块倒排索引192

非合取查询(Nonconjunctive Query)194

4.4 信息检索和排名195

坐标匹配(Coordinate matching)196

内积相似度197

向量空间模型202

4.5 检索效果评价205

召回率和精确率205

召回率-精确率曲线207

TREC项目208

万维网搜索(World Wide Web Searching)212

其他有效性评价方法215

4.6 余弦法实现216

文档内频率217

余弦值的计算方法220

文档权重所需的内存222

累加器内存227

快速查询处理228

按频率排序的索引229

排序233

4.7 交互式检索236

相关性反馈237

概率模型239

4.8 分布式检索241

4.9 进一步阅读245

第5章 索引构造248

计算模型251

索引构造方法概览252

5.1 基于内存的倒排253

5.2 基于排序的倒排256

5.3 索引压缩260

压缩临时文件261

多路归并264

原地多路归并265

5.4 压缩的内存内倒排271

大内存倒排271

基于字典的切分(Lexicon-based partitioning)276

基于文本的切分278

5.5 倒排方法的比较281

5.6 构造签名文件和位图282

5.7 动态文档集合284

扩展文本(Expanding the text)284

索引扩展(Expanding the index)285

5.8 进一步阅读290

第6章 图像压缩292

6.1 图像类型293

6.2 CCITT二值图像的传真标准297

6.3 二值图像的上下文压缩301

上下文模型304

二值上下文模型307

“超视力”压缩(Clairvoyant compression)309

6.4 JBIG:二值图像标准310

分辨率降低(Resolution reduction)311

模板和自适应模板316

编码及概率估计317

6.5 连续色调图像的无损压缩318

GIF和PNG无损图像格式319

FELICS:快速、有效且无损图像压缩系统321

CALIC:基于上下文自适应无损图像解码器325

JPEG-LS:无损图像压缩新标准326

6.6 JPEG:连续色调图像标准328

6.7 图像的递增传输333

金字塔编码334

金字塔编码的压缩335

中位数聚合337

误差模型338

6.8 图像压缩技术总结339

6.9 进一步阅读340

第7章 文本图像342

7.1 文本图像压缩概念344

7.2 有损压缩和无损压缩348

7.3 标记抽取350

跟踪标记的边界350

清除图像中的标记353

按自然阅读顺序排序标记355

7.4 模板匹配356

全局模板匹配357

局部模板匹配359

基于压缩的模板匹配360

库模板筛法363

评价模板匹配方法364

7.5 从标记到符号368

库构造368

符号及其偏移量370

7.6 编码文本图像分量371

库371

符号数372

符号偏移372

原始图像373

7.7 效果:有损和无损的模式375

7.8 系统考虑381

7.9 JBIG2:图像文本压缩标准382

7.10 进一步阅读384

第8章 混合图文385

8.1 方向387

用Hough变换检测直线388

左侧留白查找390

投影轮廓391

从斜率直方图到文本谱396

8.2 切分400

自下向上的切分方法400

自上向下的组合的切分方法402

基于标记的切分403

使用短文本字符串切分405

利用文本句法切分408

8.3 分类409

8.4 进一步阅读412

第9章 系统实现414

9.1 文本压缩415

选择压缩模型416

选择编码器419

哈夫曼编码的限制421

长度限制的编码427

9.2 文本压缩效果432

压缩有效性432

解压速度436

解压内存436

动态文档集合439

9.3 图像和文本图像441

压缩二值图像443

压缩灰度图像444

压缩文本图像444

9.4 构造索引446

9.5 索引压缩448

9.6 查询处理450

布尔查询450

排名查询453

9.7 进一步阅读455

第10章 信息爆炸457

10.1 信息技术发展2000年457

10.2 Internet:一种全球信息资源459

10.3 纸张问题462

10.4 面对信息爆炸464

网页搜索引擎464

基于代理的信息检索466

数据挖掘468

10.5 数字图书馆468

10.6 更好地管理海量数据470

10.7 小就是美472

10.8 对生活的个人信息支持474

10.9 进一步阅读475

附录A MG系统指南477

A.1 安装mg系统477

A.2 一个简单的存储和检索例子479

A.3 数据库创建484

A.4 对一个索引文档集合进行查询488

A.5 非文本文件490

A.6 图像压缩程序492

附录B 新西兰图书馆493

B.1 什么是NZDL493

计算机科学报告(Computer Science Technical Reports)493

其他文档集合496

文档集合的发展502

音频集合(audio collections)502

音调索引(Melody Index)503

B.2 NZDL是如何工作的505

原始文档505

搜索和索引506

B.3 影响508

B.4 进一步阅读508

参考文献509

热门推荐