图书介绍

文本挖掘原理2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

程显毅，朱倩著著
出版社：北京：科学出版社
ISBN：9787030293060
出版时间：2010
标注页数：216页
文件大小：29MB
文件页数：229页
主题词：数据采集－研究

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：929b6739a88f7b8892322ce8839e1e6d

下载说明

文本挖掘原理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章文本挖掘概述1

1.1 文本挖掘的产生背景1

1.2 文本2

1.2.1 文本格式2

1.2.2 动态文本集3

1.3 文本挖掘的概念3

1.4 文本挖掘的任务4

1.4.1 文本挖掘预处理4

1.4.2 文本模式挖掘4

1.4.3 挖掘结果可视化5

1.5 文本挖掘系统的通用体系结构6

第2章文本表示9

2.1 向量空间模型9

2.1.1 权值计算9

2.1.2 向量相似度度量11

2.2 概率模型11

2.3 概念模型12

2.3.1 概念12

2.3.2 概念词典12

2.3.3 概念距离13

2.3.4 概念相似度13

2.3.5 基于概念的文本表示模型的构建14

2.3.6 计算概念特征权值14

2.4 特征生成14

2.4.1 常用的文本特征15

2.4.2 各种特征比较16

2.4.3 特征维数17

2.4.4 领域知识和背景知识17

2.5 特征选择18

2.6 特征抽取18

2.6.1 潜在语义分析19

2.6.2 同义项合并20

第3章文本挖掘预处理——文本分类21

3.1 文本分类的种类21

3.1.1 单标签分类与多标签分类21

3.1.2 文本主元与类别主元分类21

3.1.3 硬分类和软分类22

3.2 文本分类的应用22

3.2.1 文本索引22

3.2.2 文本过滤23

3.2.3 网页分类23

3.3 文本分类的知识工程方法23

3.4 文本分类的机器学习方法24

3.4.1 概率分类器24

3.4.2 贝叶斯回归分析25

3.4.3 决策树分类器26

3.4.4 决策规则分类器27

3.4.5 Rocchio分类器27

3.4.6 神经网络分类器27

3.4.7 支持向量机28

3.4.8 分类器融合28

3.4.9 Boosting分类器29

3.5 Bootstrapping算法29

3.5.1 AutoSlog-TS系统29

3.5.2 交互式Bootstrapping算法31

3.5.3 Metabootstrapping算法32

3.5.4 基于句法启发式的Bootstrapping算法33

3.5.5 Basilisk算法34

3.5.6 基于术语类别的Bootstrapping算法36

3.6 文本分类器的评价36

3.6.1 性能度量37

3.6.2 标准数据集37

3.6.3 分类器比较37

第4章文本挖掘预处理——文本聚类39

4.1 聚类的任务39

4.1.1 检索召回率的改进39

4.1.2 检索正确率的改进39

4.1.3 分割／聚合40

4.1.4 特殊查询的聚类40

4.2 聚类的基本问题40

4.2.1 问题描述40

4.2.2 相似度量41

4.3 聚类算法41

4.3.1 K均值算法42

4.3.2 基于EM的概率模糊聚类算法42

4.3.3 层次聚类法43

4.3.4 其他聚类算法43

4.4 文本聚类44

4.4.1 文本聚类描述44

4.4.2 文本聚类中的特征选择44

4.4.3 文本聚类测试45

第5章文本挖掘核心操作——信息抽取46

5.1 信息抽取简介46

5.2 信息抽取任务48

5.2.1 命名实体识别48

5.2.2 模板元素49

5.2.3 模板关系50

5.2.4 背景模板50

5.2.5 共指任务50

5.3 信息抽取实例51

5.3.1 事件框架抽取51

5.3.2 小情报类型的信息抽取52

5.3.3 信息抽取过程54

5.4 信息抽取系统的体系结构55

5.5 指代消解59

5.5.1 回指和共指59

5.5.2 代词消解方法61

5.6 规则学习63

5.6.1 WHISK63

5.6.2 BWI64

5.6.3 （LP）2算法65

5.6.4 实验评价65

5.7 视觉信息抽取66

5.7.1 视觉信息的概念66

5.7.2 视觉信息抽取任务66

5.7.3 视觉元素感知67

5.7.4 基于O-型树的视觉信息相似计算68

5.7.5 基于模板的视觉信息相似计算71

5.7.6 实验结果71

第6章文本挖掘核心操作——关系抽取74

6.1 实体关系抽取74

6.1.1 实体关系74

6.1.2 实体关系抽取方法74

6.1.3 实体关系标注76

6.1.4 实体关系特征信息77

6.2 Web中的实体关系发现78

6.2.1 先确定关系模式的方法78

6.2.2 后确定关系模式的方法83

6.3 实体关系发现的难点84

6.3.1 实体关系对的确定84

6.3.2 实体关系描述文本的筛选与扩展84

6.3.3 实体关系对的验证85

6.3.4 实体关系体系的发现85

6.4 基于社会网络的实体关系发现86

6.4.1 社会网络概念86

6.4.2 社会网络构建86

6.4.3 实体关系发现87

6.5 实体包含关系的抽取89

6.5.1 特征选择89

6.5.2 实验结果及分析92

6.6 基于全信息的隐含的多实体关系抽取94

6.6.1 全信息的自然语言理解方法94

6.6.2 语法知识的自动抽取96

6.6.3 语义知识的自动抽取99

6.6.4 语用知识的自动抽取99

6.6.5 基于全信息的实体关系分析方法100

6.7 基于核函数的实体关系抽取102

6.7.1 相关工作102

6.7.2 引入先验知识的核函数103

6.7.3 Convolution核函数104

6.7.4 基于语义核函数的KNN机器学习算法106

6.8 基于混合概率模型的实体关系抽取系统——TEG110

6.8.1 混合模型概述110

6.8.2 TEG文法说明111

6.8.3 TEG训练112

6.8.4 额外特征114

6.8.5 规则抽取实例115

6.8.6 TEG实验评估117

第7章文本挖掘核心操作——关联分析120

7.1 实例——“9.11”劫机者120

7.2 网络的自动布局算法121

7.2.1 Kamada和Kawai（KK）方法121

7.2.2 Fruchterman-Reingold（FR）方法122

7.3 实体之间的关联路径123

7.4 中心性124

7.4.1 顶点中心性124

7.4.2 网络中心性131

7.4.3 概要图131

7.5 网络的分割132

7.5.1 基于核的分割算法133

7.5.2 经典图分隔算法134

7.5.3 基于实体之间等价的分割算法135

7.5.4 基于实体之间等价的分割算法138

7.6 网络中的模式匹配144

7.7 关联分析软件包145

7.7.1 Pajek145

7.7.2 UCINET145

7.7.3 NetMiner145

第8章文本挖掘结果的可视化146

8.1 浏览器146

8.1.1 概念分布的显示和浏览148

8.1.2 关联的显示和搜索149

8.1.3 利用概念分层方法进行的导航和搜索150

8.2 表示层151

8.2.1 表示层编辑器151

8.2.2 表示层的访问约束和简单的过滤规范152

8.3 文本知识发现语言KDTL153

8.3.1 KDTL概述154

8.3.2 KDTL查询实例155

8.3.3 KDTL查询界面实现156

8.4 可视化方法158

8.4.1 可视化组件在文本挖掘系统中的位置158

8.4.2 文本挖掘的通用可视化方法159

第9章文本挖掘的应用172

9.1 行业分析器172

9.1.1 基本架构和功能173

9.1.2 应用背景179

9.2 专利分析解决方案184

9.2.1 基础构架和功能185

9.2.2 应用背景190

9.3 生物学路径信息挖掘192

9.3.1 基本架构和功能193

9.3.2 应用背景195

第10章专门用于文本挖掘的信息抽取语言——DIAL199

10.1 文本模式定义199

10.2 基于DIAL的信息抽取200

10.3 文本标注201

10.4 概念和规则结构202

10.5 模式匹配204

10.6 模板元素205

10.6.1 字符串常量205

10.6.2 字词类名称205

10.6.3 同义词名称206

10.6.4 概念名称206

10.6.5 字符级规则表达式207

10.6.6 字符类207

10.6.7 视觉属性208

10.6.8 词例模式元素208

10.7 规则约束和概念保护208

10.7.1 规则约束208

10.7.2 概念保护209

10.8 DIAL实例210

10.8.1 基于标题／职位的人名抽取210

10.8.2 基于前驱动词的抽取人名列表211

10.8.3 同义词抽取位置名称211

10.8.4 创建本地人名词典212

10.8.5 一个简化的解决人称代词的指代消解规则212

10.8.6 家庭关系抽取213

参考文献215