选取一段真实的语音片段,其自相关如图1所示。长度为20ms,上子图是语音片段,下子图蓝线是其自相关,红线是自相关上包络的连线。

图1 20ms语音片段及其自相关
如前所述,自相关总体幅度随着滞后增加而慢慢下降,如果以包络的第一个峰值点所在的时刻作为周期,估计是可信的。但当片段长度减小到一定时,这样估计可能不对或者得不到结果。如图2,片段长度为6ms。

图2 6ms语音片段及其自相关
片段长度太短,自相关的包络峰值已经不存在了,无法估计基音周期。若以自相关的第一个峰值所在的位置作为基音周期的估计,在长短片段两种情形下都是不对的。
为了改善这种情况,图3画出了修正的自相关函数。上面两个子图分别是短片段和长片段的语音波形,短片段长度是6ms,长片段的长度是12ms。最后一个子图蓝线是修正的自相关,红线是修正的自相关的峰值点的连线,黑线是未修正的自相关。

图3 6ms语音片段的修正自相关
可见,修正的自相关的包络的峰值点的位置作为基音周期的估计是准确的。
自相关运算量大,为减少运算量,可采用平均幅度差。图4画出了20ms语音片段的平均幅度差。

图4 20ms语音片段的平均幅度差
图4上子图是语音片段,下子图蓝线是平均幅度差,红线是平均幅度差极小值点的连线。可见,红线的极小值点取值大小差不多(虽然MAD曲线总体是下降的),MAD曲线下包络的极小值点位置正对应着基音周期。
为体现MAD的优越性,图5画出6ms语音片段的MAD曲线。可见,下子图的下包络的极小值点指示出了基音周期。

图5 6ms语音片段的平均幅度差
类似的,也可以有修正的平均幅度差,图6示出了20ms片段的修正平均幅度差。下包络的极小值点很明显能检测出来。图7示出了6ms片段的修正平均幅度差。相比未修正的情况,下包络极小值点更明显。

图6 20ms语音片段的修正平均幅度差

图7 6ms语音片段的修正平均幅度差

图1 20ms语音片段及其自相关
如前所述,自相关总体幅度随着滞后增加而慢慢下降,如果以包络的第一个峰值点所在的时刻作为周期,估计是可信的。但当片段长度减小到一定时,这样估计可能不对或者得不到结果。如图2,片段长度为6ms。

图2 6ms语音片段及其自相关
片段长度太短,自相关的包络峰值已经不存在了,无法估计基音周期。若以自相关的第一个峰值所在的位置作为基音周期的估计,在长短片段两种情形下都是不对的。
为了改善这种情况,图3画出了修正的自相关函数。上面两个子图分别是短片段和长片段的语音波形,短片段长度是6ms,长片段的长度是12ms。最后一个子图蓝线是修正的自相关,红线是修正的自相关的峰值点的连线,黑线是未修正的自相关。

图3 6ms语音片段的修正自相关
可见,修正的自相关的包络的峰值点的位置作为基音周期的估计是准确的。
自相关运算量大,为减少运算量,可采用平均幅度差。图4画出了20ms语音片段的平均幅度差。

图4 20ms语音片段的平均幅度差
图4上子图是语音片段,下子图蓝线是平均幅度差,红线是平均幅度差极小值点的连线。可见,红线的极小值点取值大小差不多(虽然MAD曲线总体是下降的),MAD曲线下包络的极小值点位置正对应着基音周期。
为体现MAD的优越性,图5画出6ms语音片段的MAD曲线。可见,下子图的下包络的极小值点指示出了基音周期。

图5 6ms语音片段的平均幅度差
类似的,也可以有修正的平均幅度差,图6示出了20ms片段的修正平均幅度差。下包络的极小值点很明显能检测出来。图7示出了6ms片段的修正平均幅度差。相比未修正的情况,下包络极小值点更明显。

图6 20ms语音片段的修正平均幅度差

图7 6ms语音片段的修正平均幅度差










