售前电话
135-3656-7657
售前电话 : 135-3656-7657
概念理解
ASR是英文AutomaticSpeechRecognition第一个英文字母的缩写简称。意思是自动语音识别技术。是一种将人的语音转换为文本的技术。
ASR,或自动语音识别,是指让程序自动转录口语(语音到文本)的问题。我们的目标通常是在转录语音输入时,有一个模型,将Word错误率(WER)指标降至最低。换句话说,鉴于某些音频文件(例如包含语音的WAV文件),我们如何将其转换为相应的文本,并尽可能少地进行错误处理?
传统的语音识别采用生成方法,模拟语音声音生成方式的完整管道,以便评估语音样本。我们将从一个语言模型,封装最有可能的单词顺序生成(例如n-gram模型),到该顺序中每个单词的发音模型(例如发音表),到将这些发音转换为音频波形(例如高斯混合模型)的声学模型。
然后,如果我们收到一些口头输入,我们的目标是找到最有可能的文本序列,将导致根据我们的生成模型管道的给定音频。总的来说,通过传统的语音识别,我们尝试建模,并利用这个可能的成绩单。Pr(audio|transcript)*Pr(transcript)
随着时间的推移,神经网发展到传统语音识别模型的每个组件可以被性能更好且具有更大泛化潜力的神经模型所取代的地步。例如,我们可以用神经语言模型替换n-gram模型,用神经发音模型替换发音表,依次是。但是,每个神经模型都需要单独接受不同任务的培训,而流体中任何模型的错误都可能放弃整个预测。
因此,我们可以看到端到端ASR架构的吸引力:歧视性模型,只需接收音频输入并提供文本输出,并且其中架构的所有组件都一起训练以实现相同的目标。该模型的编码器类似于提取语音特征的声学模型,然后可以直接通过管道输送到输出文本的解码器。如果需要,我们可以集成一个语言模型,以改善我们的预测,
整个端到端的ASR模型可以同时进行训练——一个更容易处理的管道!
ASR工作原理
在过去几年中,语音助手已经无处不在,谷歌首页,亚马逊回声,Siri,Cortana等的受欢迎程度。这些是自动语音识别(ASR)的最知名示例。这一类应用程序从某些语言的口语音频剪辑开始,并提取已使用的单词作为文本。因此,它们也被称为语音到文本算法。
像Siria和上面提到的其他应用程序,会走得更远。他们不仅提取文本,而且还解释和理解所讲内容的语义,以便他们能够回答,或根据用户的命令采取行动。在本文中,我将重点介绍通过深度学习对文本进行语音到文本的核心能力。我的目标将是不仅了解某样东西是如何工作的,而且了解为什么它这样工作。
我在我的音频深度学习系列中还有几篇文章,你可能会发现有用。他们探索这个领域的其他引人入胜的话题,包括我们如何为深度学习准备音频数据,为什么我们使用Mel光谱仪进行深度学习模型,以及如何生成和优化这些模型。