售前电话
135-3656-7657
售前电话 : 135-3656-7657
释放双眼,带上耳机,听听看~!
00:00
00:00
当输入模拟波形是调制解调器信号、传真机信号或任意语音时,采用波形编码的效果最好。波形的形状越多,变化越没规律,就越有必要在量化噪声限制范围内尽可能贴切地模拟输入波形。
不过,如果假定输入波形仅限于人的语音,为了进一步降低必需的数字语音比特率,还能除去更多的冗余吗?事实上,在语音中还有许多冗余,根据这一特性,在语音数字化过程中可以使其速率降至2.4kbit/s。
声码器:对于模拟波形的信源特点人们作出了特定的假设,这些假定有:人的语音完全由清音和浊音组成,而且浊音和清音都有各自持续的时,间;不可能成串地出现许多清音和浊音;浊音中含有被称作“音程”的重复,形式,等等。根据这些假设,产生了被称为“源编码”的语音编码技术。
这些特点使我们能够对语音进行预测。换句话说,如果一个说话人正在发出浊音,那么他(或她)很快就会发出清音。一旦有一个音程被检测出,就有理由预测它会重复出现三到四次。源编码或混合编码的实质就在于对语音进行预测,如今这两种编码方法都在VoIP中得到普遍运用。采用源编码或混合编码的设备称作语音编码器或简称为声码器。采用声码器这一名词是为了表明这种方法仅适用于语音的数字化,要复制任意的波形,就得采用编码解码器。
在实践中,预测编码把语音波形描述为带有数个参数的模型。人们根据预测编码的特定规则设计出某种预测算法,信源和信宿的语音编码器都采用这一算法。发端和收端之间所要传送的是预测波形,与实际波形不同(不过有可能出现这种情况:当我们以为说话人会停止发出清音时,他们不但没有停下,反而继续发出清音!)。只要预测器能够很好地模拟说话人的发音机制,就可用许多参数值来表示这种体现波形差异的信息,从而天大减少发送语音的比特数。
既然源编码有利于增加网络的容量,为什么多年前不使用它呢?这是因为声码器的成本较高,把它缩减比特长度的优点给抵销了。波形编码简单而快捷,源编码却不然,它必须对输入波形进行分析,还必须调整和发送参数。预测是发送器和接收器的基础,它必需连续地工作并在发送器和接收器之间保持同步。所有这些需要大容量存储器,对声码器芯片的处理能力要求很高,而且声码器中的软件相当复杂。
直到80年代后期,声码器技术一直都很昂贵而且原始。声码器产生的声音尽管清晰可懂,但听起来却很机械化且感觉是人工合成的。得克萨斯仪器公司的老式“说话拼读”玩具内有一个芯片式的声码器,一按按钮,它就会把存在存储器中的比特以语音的形式发送出来。但是,除非迫不得以,没有人会愿意在电话中用那种方式交谈。
现有几种形式的声码器,它们都假定语音通过一个线性系统(例如,个输出等于输入叠加的系统就是线性系统)产生,且人的声道正是这样个系统。线性系统不时地受到一系列脉冲的激励,它根据音程来判断输入的声音是不是语音。
所有的线性系统都用不同的技术来模仿人的声道及其参数,所采用技术的不同形成了不同的声码器。但是它们的目的都是产生比特流,使得声音听起来与声源差不多,而不关心输出波形与输入波形到底有几分相似(这正是声码器听起来很不自然,却仍旧好懂的原因)。发送器分析输入的语,音并决定模型参数和激励,接收器则合成语音。
声码器质量不尽如人意是因为所用的算法性能简单。所有的声音不是高幅就是低幅,在两者之间却什么也没有。更糟的是,人耳对浊音的音高十分敏感,但是所有的声码器的注意力都集中在音程上,且至今也未令人满意地解决好音程这个问题。声码器对差错很敏感,这些差错是由于声道模型参数的计算问题,以及线路上的比特差错而产生的。
在语音和音乐合成器中都使用声码器,但这里的讨论只限于它在电话中的应用。关于声码器的构思早在1939年就有了,但只是简单的通道声码器;与此同时,数字语音也诞生了。注意到耳朵对较小的相位失真并不敏感,信道声码器把语音分成20ms长的一些小段,它只关心各段的幅度大小,最后产生2.4kbit/s的语音。对这种声码器改进后形成同型性声码器,它把音高信息加入了幅度之中,付出的代价是把比特率提高到4kbit/so如果芯片处理能力有了质的飞跃,还有一种共振峰声码器来处理语音,理论上可以获得1kbit/s或更低速率的语音。就有如语音的音程一样,共振峰也是语音的一个特征。然而,在实际中难以精确地测定语音共振峰,这使得共振峰声码器很难普及。