语音信号的频域分析就是分析语音信号的频域特征。由于语音波的非平稳性,采用短时傅里叶变换对信号的频谱进行分析,相应的频谱称为短时谱。语音信号加窗之后的傅里叶变换即是短时傅里叶变换,为体现随时间的变化,窗函数随时间向右移动。连续短时傅里叶变换定义为

离散化,所有帧语音片段的离散傅里叶组成短时傅里叶变换的离散形式

N是DFT点数,n表示帧标号,D为帧移。根据傅里叶变换的卷积性质,信号与窗函数的乘积的傅里叶变换等价于各自的傅里叶变换的卷积。窗函数的主瓣宽度与窗口宽度成反比,要使短时化之后的频谱完全再现原始语音的频谱,窗函数的傅里叶变换应该是冲激函数,此时窗长度趋于无穷大,短时化失去意义。因此,应该折衷选择窗长度。如果对频率分辨率有要求,那么N点DFT的频率分辨率为Fs/N,所以N越大频率分辨率也越高,为了保持短时化的效果,点数不足时往往采取在短时信号帧后面添零的方法提高分辨率。语音信号的短时功率谱即是短时傅里叶变换的幅度的平方,与短时自相关函数组成傅里叶变换对。
语音信号的短时傅里叶频谱是按实际频率分布的,符合人耳的听觉特性的频率分布应该是按照临界带频率分布的。所以按实际频率分布得到的特征不符合人耳听觉特性,将会降低语音信号处理系统的性能。实际频率转化为临界带频率的方法为

是第i个临界带频率分割点,
构成第i个临界带。将某帧信号每个临界带内的能量求和,就能得到此帧的特征矢量。因此,临界带特征矢量每一维分量是能量。(3)式是非线性表达式,其非线性转换方式与之后的梅尔频率不一样,梅尔频率是对数转换,并且梅尔频率倒谱系数在取能量之后进行了离散余弦变换。

离散化,所有帧语音片段的离散傅里叶组成短时傅里叶变换的离散形式

N是DFT点数,n表示帧标号,D为帧移。根据傅里叶变换的卷积性质,信号与窗函数的乘积的傅里叶变换等价于各自的傅里叶变换的卷积。窗函数的主瓣宽度与窗口宽度成反比,要使短时化之后的频谱完全再现原始语音的频谱,窗函数的傅里叶变换应该是冲激函数,此时窗长度趋于无穷大,短时化失去意义。因此,应该折衷选择窗长度。如果对频率分辨率有要求,那么N点DFT的频率分辨率为Fs/N,所以N越大频率分辨率也越高,为了保持短时化的效果,点数不足时往往采取在短时信号帧后面添零的方法提高分辨率。语音信号的短时功率谱即是短时傅里叶变换的幅度的平方,与短时自相关函数组成傅里叶变换对。
语音信号的短时傅里叶频谱是按实际频率分布的,符合人耳的听觉特性的频率分布应该是按照临界带频率分布的。所以按实际频率分布得到的特征不符合人耳听觉特性,将会降低语音信号处理系统的性能。实际频率转化为临界带频率的方法为











