售前电话
135-3656-7657
售前电话 : 135-3656-7657
话音处理技术
IP网络电路中的话音处理主要需解决两个问题。一是在保证一定话音质量的前提下尽可能降低编码比特率,二是在IP网络环境下保证一定的通话质量。前者主要是话音编码技术,包括静音检测;后者包括分组丢失补偿和回波抵消技术。欧洲电信标准化委员会(ETSI)提出了关于IP网络电话QoS的分级要求,如表1.1所示:
表中,MOS为话音质量的主观评测分,最高分为5分。在话音通信中,时延指标是主要的,时延过大会使听话者有不连续的感觉,而时延抖动是次要的,听话音对此感觉不很灵敏。
1.低比特率话音编码
话音编码算法需要考虑三个方面的问题:编码比特率、话音质量和算法复杂度,一般说来这些指标是有矛盾的。比特率越低,线路利用率越高,但话音质量会受到影响;在同样比特率情况下,算法设计越复杂,话音质量会有所提高,但处理时延将增加。因此,制订一个编码标准,首先必需确定其应用环境,据此给出其性能要求,然后才能设计出编码方案和算法,实际上就是在上述三个指标中取得某种折衷。
目前在PSTN中广泛应用的是PCM话音编码,其比特率为64-kbit/s,话音采样频率是8kHz。它属于波形编码类型。一般说来,这类编码的最低比特率为32khit/s,即ADPCM。若要进一步降低其比特率,特别是低于16kbit/s的低比特率编码方案,必须采用新的编码原理,这就是参数编码,又称作声码器(Vocoder)技术。它是通过模拟人的发声器官,提取模型参数来降低话音信息编码率的。这种技术虽然早就提出,但是由于其算法太复杂未能实用。直至90年代,微电子业研制出了高性能的数字信号处理(DSP)专用芯片,其定点运算能力可高达几十个MIPS,才使声码器技术得以实际应用。首先广泛使用的是第二代移动通信系统,其比特率为2.4-13kbit/s。IP网络电话推荐使用ITU-T定义的低比特率编码标准,其比特率为5.3-16kbit/s,均为中低复杂度编码算法,话音分组长度在30ms以下,话音质量较好。
2.静音检测
静音检测又称话音活动性检测(VAI)--VoiceActivityDetection),它是一种静音压缩技术。
在电话通信中,平均说来,每一方说话的时间和听对方说话的时间大体上各占一半,即使在说话时也还有停顿间隙,因此任一方对线路的占用率,也就是话音活动度大约只有40%左右。在电路交换中,即使通话者不说话,也要占用64-kbit/s的信道;在分组交换中,由于传输通道是统计复用的,因此在通话者不讲话时就可以不发送话音分组,从而进一步降低话音比特率。这一技术的关键就是如何检测说话者处于不发声状态,即VAD。检测的基本原理是判断话音信号能量,当低于一定门限值就认为是静默状态。
静音检测有两个技术难点。一是如何在噪声较大的环境中检测静音,二是"剪音"(clipping)问题。所谓剪音指的是话音还原时有一部分被剪切掉了,使人感到失真。其原因是通话者从说话到静默以及从静默到说话的检测都是要有一定时间和一定判定门限的,因此当通话者从静默刚刚转为说话时,开始一段微弱话音部分就可能被作为静默而丢弃了。解决这一问题的方法是在一组突发话音分组前增加一个话音分组进行平滑,话音突发后沿剪音也可用同样方法解决。
在实际使用中还有一个问题,如果静音期不发任何分组,即完全无声,收听者反而会感到不自然,因此实用的静音压缩算法由两部分组成:
.话音活动性检测器(VAD):制定输入信号是话音还是背景噪声。如果信号被确认为话音,就以编码算法规定的固定比特率对其编码;如果信号被确认为噪声,就以非常低的比特率对其编码,或者根本就不发送任何比特。
·舒适噪声生成器(CNG):接收方采用某种机制重构背景噪声的主要特征。噪声生成方法的设计必须保证解码器和编码器之间的同步;即使在某段时间内编码器未发出任何比特,解码器也能正确理解,使得复原后话音的有音段和无音段之间有平滑的过渡。
3.分组丢失补偿
在IP网络中分组丢失是不可避免的,丢失的原因可能是线路误码或者网络路由故障,更常见的原因则是传输时延过长或网络拥塞导致分组被丢弃。由于低比特率声码器都是基于线性预测编码原理,其当前值是通过以前历史值线性组合而得,因此通过内插的方法不难得到丢失分组的近似估计值。mJ-T定义的标准编码的解码器部分都已包含分组丢失补偿这一功能。实际试验表明,如果Internet电话话音分组丢失两个以上,则可能此时网络连接状态很差,将会有一大堆分组丢失。所以Internet电话分组丢失补偿以处理一个分组丢失为主要目的。所幸的是,话音通信对分组丢失的容忍性远比数据通信强,一般不会影响通话的可懂度。
4.回波抵消