im电竞网页APP下载

返回栏目

智慧医院 > 新闻资讯 >

医护IP可视对讲系统厂家-asr-自动语音识别技术

2023-10-20 12:19

概念理解 ASR是英文AutomaticSpeechRecognition第一个英文字母的缩写简称。意思是自动语音识别技术。是一种将人的语音转换为文本的技术。

ASR，或自动语音识别，是指让程序自动转录口语（语音到文本）的问题。我们的目标通常是在转录语音输入时，有一个模型，将Word错误率（WER）指标降至最低。换句话说，鉴于某些音频文件（例如包含语音的WAV文件），我们如何将其转换为相应的文本，并尽可能少地进行错误处理？
传统的语音识别采用生成方法，模拟语音声音生成方式的完整管道，以便评估语音样本。我们将从一个语言模型，封装最有可能的单词顺序生成（例如n-gram模型），到该顺序中每个单词的发音模型（例如发音表），到将这些发音转换为音频波形（例如高斯混合模型）的声学模型。

然后，如果我们收到一些口头输入，我们的目标是找到最有可能的文本序列，将导致根据我们的生成模型管道的给定音频。总的来说，通过传统的语音识别，我们尝试建模，并利用这个可能的成绩单。Pr(audio|transcript)*Pr(transcript)

随着时间的推移，神经网发展到传统语音识别模型的每个组件可以被性能更好且具有更大泛化潜力的神经模型所取代的地步。例如，我们可以用神经语言模型替换n-gram模型，用神经发音模型替换发音表，依次是。但是，每个神经模型都需要单独接受不同任务的培训，而流体中任何模型的错误都可能放弃整个预测。

因此，我们可以看到端到端ASR架构的吸引力：歧视性模型，只需接收音频输入并提供文本输出，并且其中架构的所有组件都一起训练以实现相同的目标。该模型的编码器类似于提取语音特征的声学模型，然后可以直接通过管道输送到输出文本的解码器。如果需要，我们可以集成一个语言模型，以改善我们的预测，
整个端到端的ASR模型可以同时进行训练——一个更容易处理的管道！ ASR工作原理在过去几年中，语音助手已经无处不在，谷歌首页，亚马逊回声，Siri，Cortana等的受欢迎程度。这些是自动语音识别（ASR）的最知名示例。这一类应用程序从某些语言的口语音频剪辑开始，并提取已使用的单词作为文本。因此，它们也被称为语音到文本算法。

像Siria和上面提到的其他应用程序，会走得更远。他们不仅提取文本，而且还解释和理解所讲内容的语义，以便他们能够回答，或根据用户的命令采取行动。在本文中，我将重点介绍通过深度学习对文本进行语音到文本的核心能力。我的目标将是不仅了解某样东西是如何工作的，而且了解为什么它这样工作。

我在我的音频深度学习系列中还有几篇文章，你可能会发现有用。他们探索这个领域的其他引人入胜的话题，包括我们如何为深度学习准备音频数据，为什么我们使用Mel光谱仪进行深度学习模型，以及如何生成和优化这些模型。

最先进的技术（什么是声音，如何数字化。什么问题就是在日常生活中深入学习解决。什么是光谱图，为什么它们都很重要。

为什么梅尔光谱仪性能更好（在Python中处理音频数据。什么是梅尔光谱图以及如何生成它们）

数据准备和增强（通过超参数调整和数据增强增强光谱功能，实现最佳性能）

声音分类（端到端示例和架构，对普通声音进行分类。一系列方案的基础应用。

光束搜索（语音到文本和NLP应用程序常用的算法，以增强预测）

语音到文本我们可以想象，人类言论是我们日常个人和商业生活的基础，语音到文本功能具有大量的应用。人们可以用它来转录客户支持或销售电话的内容，用于语音聊天机器人，或者记下会议和其他讨论的内容。
基本音频数据由声音和噪音组成。人类言论就是一个特例。因此，我在文章中谈到的概念，如我们如何数字化的声音，处理音频数据，以及为什么我们转换音频到光谱仪，也适用于理解语音。然而，语音是更复杂的，因为它编码语言。
音频分类等问题从声音剪辑开始，并从给定类别中预测声音属于哪个类。对于语音到文本的问题，您的培训数据包括：

输入功能（X）：口语音频剪辑

目标标签（y）：发言内容的文本记录