转：语音信号预处理及特征参数提取

大家好，我是讯享网，很高兴认识大家。

参考链接： https://zhuanlan.zhihu.com/p/

1. WAVE文件格式

在进行语音信号处理时，基本上会采用WAVE文件进行处理。WAVE文件格式有什么特点呢？为什么要使用WAVE文件呢？

1.1 资源互换文件格式——RIFF

在windows环境下，大部分的多媒体文件都依循着一些通用的结构来存放，这些结构称为“资源互换文件格式”（Resources Interchange File Format)，简称RIFF。RIFF可以看作一种树状结构，其基本构成单位是块（chunk）。每个块由“辨别码”、“数据大小”及“数据”等构成。

RIFF文件的前4字节为其辨别码“RIFF"的ASCII字符码，紧跟其后的双字节数据则标示整个文件大小（单位为字节Byte）。由于表示文件长度或块长度的”数据大小“信息占用4Byte，所以，事实上一个WAVE文件或文件中块的长度为数据大小加8。

1.2 WAVE文件格式

WAVE文件格式是windows中关于声音的一种标准格式，也是RIFF文件格式支持的一种格式，这种格式已成为Windows中的基本声音格式。整个WAVE文件可以分成两部分：前一部分为文件头，后一部分为数据块。根据其编码方式和采样数的不同，这两部分的大小有所不同。在WAVE文件中，所采用的编码方式有PCM（Pulse Code Modulation-脉冲编码调制）和ADPCM(Adaptive Differential Pulse Code Modulation-自适应差分脉冲编码调制）两种。

WAVE文件是非常简单的一种RIFF文件，它的格式类型为"WAVE"。RIFF块包含两个子块，这两个子块的ID分别是"fmt"和"data",其中"fmt"子块由结构PCMWAVEFORMAT所组成，其子块的大小就是sizeofof(PCMWAVEFORMAT),数据组成就是PCMWAVEFORMAT结构中的数据。

下面是一个语音的数据：

下面是数据中每个字节的内容：

2. 语音的预处理

在对语音信号进行分析和处理之前，必须对其进行预加重、分帧、加窗等预处理操作。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

2.1 预加重

语音信号s(n)的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB/oct (倍频程)衰减，频率越高相应的成分越小，为此要在对语音信号s(n)进行分析之前对其高频部分加以提升。通常的措施是用数字滤波器实现预加重，预加重网络的输出和输入的语音信号s(n)的关系为：

其中a为预加重系数，一般取，本系统中取a= 0.9375。

单词 interesting数据显示

单词 interesting数据经预加重后

2.2 分帧

贯穿于语音分析全过程的是“短时分析技术”。语音信号具有时变特性，但是在一个短时间范围内(一般认为在10~30ms的短时间内)，其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上，即进行“短时分析”，将语音信号分段来分析其特征参数，其中每一段称为一“帧”，帧长一般取为10~30ms。这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。

2.3 加窗

由于语音信号具有短时平稳性，我们可以对信号进行分帧处理。紧接着还要对其加窗处理。窗的目的是可以认为对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱。对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算。用得最多的三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)，其定义分别为: