图书介绍
走进搜索引擎2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 梁斌编著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121049224
- 出版时间:2007
- 标注页数:272页
- 文件大小:23MB
- 文件页数:290页
- 主题词:互联网络-情报检索
PDF下载
下载说明
走进搜索引擎PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一章 引言1
第一节 什么是搜索引擎2
第二节 搜索引擎的发展简史5
搜索引擎的发展历史5
第三节 搜索引擎大事快览15
第四节 国内著名搜索引擎17
百度(www.baidu.com)17
中搜(www.zhongsou.com)18
天网(e.pku.edu.cn)19
搜狗(www.sogou.com)20
参考文献21
第二章 搜索引擎概貌23
第一节 搜索引擎的主要需求24
查得快24
查得全25
查得准25
查得稳27
第二节 搜索引擎的4大系统28
搜索引擎的体系结构28
第三章 搜索引擎的下载系统31
第一节 爬虫的发展历史32
世界上第1个爬虫32
爬虫的发展历程33
第二节 万维网及其网页分析34
蝴蝶结型的万维网34
万维网的直径37
万维网的规模及变化特征39
网页的特征39
第三节 有关爬虫的基本概念41
爬虫41
种子站点41
URL42
Backlinks42
第四节 网页抓取原理43
telnet和wget43
从种子站点开始逐层抓取44
不重复抓取策略50
网页抓取优先策略59
网页重访策略61
Robots协议67
其他应该注意的礼貌性问题69
抓取提速策略(合作抓取策略)70
第五节 网页库77
第六节 下载系统回顾及未来发展82
参考文献84
第四章 搜索引擎的分析系统86
第一节 知识准备87
HTML语言87
锚文本(anchor text)87
半结构化数据(Semi-structured data)88
第二节 信息抽取及网页信息结构化89
网页结构化的目标89
建立HTML标签树93
通过投票方法得到正文98
网页结构化过程回顾103
第三节 网页查重105
网页查重技术发展历史105
网页查重实现方法107
第四节 中文分词113
什么是中文分词113
通过字典实现分词114
通过统计学方法实现分词120
第五节 PageRank121
PageRank的来由121
PageRank的基本想法122
PageRank的计算公式124
PageRank的计算方法129
第六节 分析系统结构图134
参考文献136
第五章 搜索引擎的索引系统139
第一节 知识准备140
信息140
索引141
倒排索引、倒排表、临时倒排文件、最终倒排文件141
其他概念142
第二节 全文检索143
全文检索143
第三节 文档编号146
编号的本质146
文档编号的方法147
游程编码149
第四节 倒排索引154
经典的倒排索引154
正排索引(前向索引)155
倒排索引158
第五节 数据规模的估计163
齐普夫法则163
布尔检索模型下的索引规模估计165
第六节 涉及存储规模的一些计算170
正排表与倒排表的合并170
多个临时倒排文件的归并174
倒排索引分布式存储179
倒排文件缓存183
倒排索引词典统计信息的计算183
第七节 倒排索引文件的创建过程185
创建倒排表185
计算统计信息187
参考文献189
第六章 搜索引擎的查询系统191
第一节 知识准备192
什么是信息熵192
检索和查询的区别196
检索词和查询词的区别196
自动文本摘要(Automatic Text Summarization)197
第二节 网页信息检索198
早期的检索模型198
向量空间模型(Vector Space Models)201
关键词权重的量化方法TF/IDF207
搜索引擎采用的检索模型213
多文档列表求交计算215
检索结果排序222
堆排序223
第三节 中文自动摘要230
自动摘要的发展历史230
自动摘要的含义和实现231
第四节 生成搜索结果页239
生成搜索结果页239
第五节 搜索结果页的缓存242
搜索结果页的缓存242
第六节 推测用户查询意图245
查询分类245
推测信息类、事物类的查询意图247
第七节 查询系统的当前热点和发展方向249
查询系统的当前热点249
参考文献250
第七章 搜索引擎的其他话题252
第一节 搜索引擎问与答253
为什么搜索引擎的搜索速度这么快253
为什么搜索引擎能够返回那么多的查询结果255
为什么搜索引擎总能返回最想要的结果256
搜索引擎如何大规模存储网页的257
什么是SEO259
什么是元搜索引擎260
搜索引擎认为的作弊行为是哪些261
如何进一步学习和了解搜索引擎发展的最新成果262
第二节 搜索引擎未来的发展265
新兴的搜索产品265
搜索技术的未来268
参考文献270
附录A 搜索引擎系统结构全观图271
热门推荐
- 3737408.html
- 2943862.html
- 3169826.html
- 2117372.html
- 3135114.html
- 69739.html
- 1777827.html
- 2714071.html
- 1795485.html
- 273695.html
- http://www.ickdjs.cc/book_222859.html
- http://www.ickdjs.cc/book_2053510.html
- http://www.ickdjs.cc/book_221724.html
- http://www.ickdjs.cc/book_3163674.html
- http://www.ickdjs.cc/book_1152961.html
- http://www.ickdjs.cc/book_3721761.html
- http://www.ickdjs.cc/book_1021390.html
- http://www.ickdjs.cc/book_1205504.html
- http://www.ickdjs.cc/book_2125338.html
- http://www.ickdjs.cc/book_3168979.html