图书介绍

现代语音技术基础与应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

现代语音技术基础与应用
  • 蔡莲红等编著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:7302072779
  • 出版时间:2003
  • 标注页数:367页
  • 文件大小:26MB
  • 文件页数:377页
  • 主题词:语音数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

现代语音技术基础与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

目录1

第1章 绪论1

1.1 言语过程2

1.2 语音技术的研究范围3

1.3 数字信号处理与数字语音信号处理4

第2章 语音信号处理基础5

2.1 数字信号处理基础5

2.1.1 离散时间信号与系统5

2.1.2 离散傅立叶变换7

2.1.3 Z变换8

2.1.4 离散余弦变换10

2.1.5 卷积和滤波11

2.2 语音信号产生模型14

2.2.1 语音的产生机理14

2.2.2 级联声管模型17

2.2.3 语音生成模型22

2.3 语音信号的时域处理23

2.3.1 语音信号的抽样和量化23

2.3.2 语音信号的短时24

分析和预处理24

4.4 参数编码与混合编码 124

2.3.3 短时能量、短时平均幅度26

和短时平均过零率26

2.3.4 语音的端点检测27

2.3.5 短时自相关函数29

2.3.6 短时基音周期估计30

2.4 语音信号的频谱分析32

2.4.1 短时傅立叶变换和语谱图32

2.4.2 同态信号处理的基本原理34

2.4.3 复倒谱和倒谱35

2.5 语音信号的线性预测编码分析37

2.5.1 线性预测的基本原理38

2.5.2 线性预测方程组的解法40

2.5.3 线谱对参数45

2.6 语音信号的矢量量化47

2.6.1 矢量量化的基本原理47

2.6.2 失真测度49

2.6.3 量化器和码本的设计50

2.6.4 量化系统的复杂度控制52

2.7 听觉特性和语音感知54

2.7.1 听阈与听域55

2.7.2 音调(pitch)55

2.7.3 向度级、响度与遮掩效应56

3.1.2 音素的分类和特点58

3.1 语音基础知识58

3.1.1 国际音标58

第3章 语音基础知识与语料库58

3.2 汉语的特点62

3.2.1 汉语拼音方案63

3.2.2 汉语音素及其分类65

3.3 汉语的音节66

3.4 汉语的声调70

3.4.1 汉语的声调的特点70

3.4.2 声调的标记71

3.4.3 声调的声学特性72

3.4.4 动态声调75

3.5.2 语调的模式78

3.5 汉语的语调78

3.5.1 关于语调78

3.6 语音语料库79

3.6.1 概述79

3.6.2 语音语料库的设计与建设81

3.6.3 TIMIT87

3.7 基于语料库的语音学研究92

3.7.1 声学参数的统计分析93

3.7.2 音节聚类研究96

3.7.3 音域模型初探100

第4章 语音编码107

4.1 语音编码基础107

4.1.1 信息论基础107

4.1.2 语音编码分类108

处理领域109

4.1.3 语音编码与其他语音109

4.2 语音编码的评价方法和依据110

4.2.1 语音编码的评价方法110

4.2.2 语音编码的评价依据112

4.3 波形编码及其国际标准113

4.3.1 标量量化113

4.3.2 瞬时压扩116

4.3.3 自适应差值脉冲编码117

4.3.4 G.721-32 kbps自适应差值脉冲编码调制(ADPCM)119

4.4.1 编码参数及其量化125

4.4.2 LPC-10声码器126

4.4.3 编码结构的改进129

语音编码标准131

4.4.4 低延时CELP 16 kbps131

4.4.5 G.723.1双速率多媒体通信传输语音编码器137

4.5 码本设计与生成150

4.5.1 G.728激励码本151

4.5.2 G.729激励码本152

4.6 感知编码154

4.6.1 感知编码原理155

4.6.2 感知编码算法158

第5章 语音合成166

5.1 语音合成研究的历史和现状167

5.2 语音合成方法168

5.2.1 共振峰合成169

5.2.2 波形拼接合成174

5.3.1 文本分析概述180

5.3 TTS系统的文本分析和韵律180

预测180

5.3.2 文档结构分析184

5.3.3 文本规范化(text186

normalization)186

5.3.4 语法分析190

5.3.5 韵律分析201

5.3.6 字音转换203

5.3.7 小结205

5.4 韵律建模206

5.4.1 韵律的描述206

5.4.2 韵律与句法214

5.4.3 韵律建模215

5.5 文语转换系统222

5.5.1 汉语TTS系统Sonic223

5.5.2 基于大语料库的TTS225

系统225

5.5.3 基于匹配代价函数的227

基元选取227

5.5.4 权重的设定和训练229

5.6 语音合成技术展望230

第6章 语音识别232

6.1 语音识别基础232

6.1.1 语音识别基本原理233

6.1.2 语音识别分类233

6.2.1 LPC倒谱系数(LPCC)234

6.2 特征表示与提取234

6.2.2 Mel频率倒谱系数236

(MFCC)236

6.2.3 特征提取的具体问题238

6.3 模板匹配技术239

6.3.1 相似性度量239

6.3.2 动态时间规整(DTW)240

6.3.3 特征模板训练242

6.4 隐马尔可夫模型(HMM)244

6.4.1 HMM基本概念与原理245

6.4.2 前向概率与后向概率247

6.4.3 HMM模型的三个问题249

6.4.4 HMM模型的训练252

6.4.5 HMM求解具体问题258

6.4.6 HMM的结构和类型260

6.4.7 HMM模型相似性比较262

6.5 孤立词及连接词识别262

6.5.1 孤立词识别262

6.5.2 HMM模型参数选择264

6.5.3 HMM模型参数训练——264

分段K均值算法264

6.5.4 连接词识别265

6.6 连续语音识别268

6.6.1 连续语音识别整体模型269

6.6.2 声学模型269

6.6.3 语言模型272

6.7 说话人识别273

与系统性能评价274

6.7.1 说话人识别的基本原理274

6.7.2 说话人识别的特征选择276

6.7.3 说话人识别的基本方法278

第7章 可视语音282

7.1 概述282

7.2 看得见的语音283

7.2.1 语音波形图283

7.2.2 语谱图284

7.2.3 可视发音器官的运动286

7.3 视位288

7.3.1 视位的定义288

7.3.2 视位的参数表示方法289

7.3.3 视位的非参数表示方法290

7.3.4 汉语视位294

态视位模型296

7.4 动态视位模型296

7.4.1 基于权值融合的动296

7.4.2 视位数据的自动提取298

7.4.3 动态视位模型的参数302

估十302

7.5 文本-可视语音转换303

7.5.1 基于参数控制的方法304

7.5.2 基于数据驱动的方法306

7.6 机器自动唇读308

7.6.1 视觉特征308

7.6.2 实现方法308

7.7 双模态语音识别310

7.7.1 双模态信息融合的时间311

7.7.2 双模态信息的同步311

融合权重312

7.7.3 确定双模态信息的312

7.8 音视频映射313

7.8.1 语音特征选取314

7.8.2 基于矢量量化分类314

的方法314

7.8.3 基于混合高斯模型的315

方法315

7.8.4 基于神经网络的方法316

7.8.5 基于隐马尔可夫模型317

的方法317

7.8.6 基于支持向量回归的317

方法317

8.1.1 概述321

对话系统ISIS321

8.1 多模态三语种分布式口语321

第8章 系统与应用321

8.1.2 对KQML软件代理的325

授权325

8.1.3 ISIS中的多模态327

8.1.4 小结330

8.2 人机口语对话系统与应用330

8.2.1 口语对话系统330

8.2.2 清华大学校园导游336

系统EasyNav336

8.2.3 电话航班订票与信息查询341

系统EasyFlight341

SinoSonic346

8.3 炎黄之声语音合成服务器346

8.3.1 语音合成服务器概述347

8.3.2 语音合成服务器体系347

结构347

8.3.3 SinoSonic语音合成350

服务器的应用350

8.3.4 Monternet(移动梦网)统一消息平台语音技术应用TTS352

8.3.5 TTS在其他领域的应用和353

今后的工作353

8.4 IBM语音解决方案简介353

8.4.1 桌面听写机系统(ViaVoiceDesktop)354

8.4.2 电话语音识别系统(ViaVoiceTelephony)355

8.4.3 嵌入式ViaVoice技术356

8.4.4 WebSphere Voice Server356

热门推荐