机器学习发展如何助力配音技术提升

2022-06-15来源：AI深一度

机器学习发展如何助力配音技术提升

人工智能(AI)技术在过去几年发展迅速，为商业人士提供了一种深入学习模式。尽管离在音频世界大展身手还需要一些时间，但人们已经看到AI在视频和图像处理方面的悄然崛起。

作为AI的一部分，机器学习(ML)改变了人们使用配音技术的方式。人们熟悉的Cortana、Siri、Alexa许多语音助手都采用了配音技术。也正是由于AI技术的进步，AI产出的声音变得比以往任何时候都更加真实，并且在自然语音处理方面做得更加出色。

本文将讨论ML和AI已经取得的进展，以及它们如何对语音技术提升产生的影响。

1.ML如何改进语音技术

(1)音频更智能

随着对语音技术的需求开始增长，自动语音识别(ASR)方面的提供商正加大语音识别产品的创新，以满足人们的更多需求。

语音识别技术的用户在增加，市场规模也在扩大。根据一项研究，到2026年，全球语音识别市场规模将增长到220亿美元。这种巨大的转变将为自动语音识别(ASR)带来挑战，推动其创新并成功应对同种语言中的不同方言，比如以英语为母语的人在不同的国家和地区(例如澳大利亚、英格兰、苏格兰、美国等)就会使用不同的方言。

只有在ML和AI功能的双重驱动下，自动语音识别(ASR)才能做到将同种语言中不同方言的口语单词转换为文本。此外，它还能够识别来自一种语言的更多方言和口音。换句话说，有一天，全世界使用的每一种语音技术都将使用一个逼真的AI语音生成器。

关于音频技术中ML的一些真实示例包括：

iZotope&Neutron 2：贴心的音轨助手能利用AI和ML功能来检测直接向用户提供预设的仪器的跟踪协助。它还具有一个实用程序，用于隔离音频中的对话。

LANDR：一种自动音频母带处理服务，它完全依赖AI和ML来设置有关数字音频处理的参数。

Google Wavenet：一种用于生成录音的学习模型。

(2)数据就是推动力

计算机的声波部分处理是语音识别的初始步骤，即声音将会转换成数据。因此，要使语音识别社会工程获得成功，这一过程应包括以下内容：

语音采集样本完全可访问或有可靠的语音数据库。

由于表征数据集的功能数量较少，消除提高算法学习能力的实用功能。

ML算法用于创建可靠的分类器，并允许ML算法从训练样本中学习以进行新的观察。

最后，深度学习适用于语音识别技术，并且在任何环境中的日常使用中都保持精确，因此，语音识别系统可在给定的环境中平稳运行。

现实中，想要创建语音识别系统的开发人员需要有大量的训练数据。如果从经济角度上来说，这可能需要花费数百万美元来收集正确的转录数据。只有这样，才能对转录数据正确地训练语音识别系统。

(3)AI和ML中的数字信号处理

尽管在音频处理中应用AI和ML还处于早期阶段，但深度学习方法使人们能够从不同的角度解决信号处理问题，而这一问题目前正被广大音频行业用户忽视。一般来说，理解声音和信号处理是复杂的，很难用语言来描述。

例如，听到两个或更多人说话，这两个人互相交谈的参数会如何描述呢?这当中要考虑的因素很多，其中一些问题包括：

性格(年龄、性别、活力)如何影响这些声音?

室内声学和距离对理解水平有多大影响?

谈话过程中可能出现的其他噪音怎么办?

正如人们所见，对配音的测量可以源自许多参数，并且需要对它们给予重视。在这种情况下，AI可以为人们提供一种实用的方法，为学习创造所需条件。

深度神经网络音频处理正日益发展，但仍有许多问题需要人们解决，包括：

高保真音频重建：小型低质量麦克风。

空间模拟：用于双耳处理和混响。

选择性降噪：去除某些元素，例如汽车交通。

模拟音频仿真：估计非线性模拟音频组件之间的复杂交互。

(4)配音艺术家

使用深度学习(机器学习)创建自然声音的关键步骤是在这个过程中拥有原始音频。相对而言，世界各地的许多企业都在与配音艺术家合作创作配音产品。大多数配音师在每次使用他们的AI语音时可以获得版税，从而获得丰厚的报酬。

但是，配音师也会碰到被骗的问题。他们虽然录制了配音，但没有进一步了解使用者是谁。例如，Siri的原声配音人员苏珊·本尼特(Susan Bennett)与ScanSoft公司签订了合同，但她从不知道自己的录音实际上是为苹果公司录制的。她只获得了录制配音的一次性报酬，并没有获得持续收入。

此外，配音师遇到的其他一些问题是，在现有技术背景下，业内的合同和费用尚未得到很大提升。此外，还有人认为配音可能被负面使用，甚至可能会毁掉配音师的声誉。例如，它可被用于不想与之合作的公司以及用于粗俗的语言。

(5)用例的兴起

由于AI和ML能让人们以最自然的方式增加定制体验、找到解决方案、访问服务、进行产品退货，语音技术在各个行业中不断发展。以下是ML和AI如何改变自然语言处理案例的几个例子：

消费者下订单：另一种在消费行业中涉及语音识别和转录的应用。消费者有机会更快、更有效地订购。不用花时间浏览整个菜单，客户只用语音请求就能在几秒钟内下订单。

虚拟助理：根据一项研究，到2024年，市场上的语音助手预计将超过84亿台。语音助手可以支持IT帮助台团队等等。通过向虚拟助理提出更多要求，企业员工有更多时间完成日常任务，并更有效地利用时间。

客户亲密度分析：零售企业开始使用音频挖掘软件来更好地分析呼叫中心的对话，并了解他们的客户。由ML和AI提供支持的自动语音识别(ASR)可以精准了解客户，并从其讨论中提取有价值的见解。

(6)语音识别技术是未来吗?

语音识别技术必定在未来大放异彩。随着AI和ML技术不断改进，人们将看到它们的使用场景不断增加。此外，配音师也将获得一席之地。由于可以通过他们协助语音识别技术改进，之后语音技术可能会发展到与人们交谈时带有各种情绪的程度。

2.结语

以上就是ML和AI在过去几年为语音技术带来的提升，以及这种提升不断发展的原因。有朝一日，语音技术或将发展至人们与语音助手交谈就像与人交谈一样的程度。

企业则需要考虑如何将语音技术纳入其业务战略。毕竟，世界正在朝着新的起点和技术路径转变，如果他们把语音识别技术融入业务，将有助于他们脱颖而出。

　　图片使用申明：原创文章图片源自‘Canva可画’平台免费版权图片素材；引用文章源自引用平台文章中所使用的原图。

机器学习发展如何助力配音技术提升

相关文章