沃卡logo

机器学习发展如何助力配音技术提升

2022-06-15来源:AI深一度

机器学习发展如何助力配音技术提升

  人工智能(AI)技术在过去几年发展迅速,为商业人士提供了一种深入学习模式。尽管离在音频世界大展身手还需要一些时间,但人们已经看到AI在视频和图像处理方面的悄然崛起。

  作为AI的一部分,机器学习(ML)改变了人们使用配音技术的方式。人们熟悉的Cortana、Siri、Alexa许多语音助手都采用了配音技术。也正是由于AI技术的进步,AI产出的声音变得比以往任何时候都更加真实,并且在自然语音处理方面做得更加出色。

  本文将讨论ML和AI已经取得的进展,以及它们如何对语音技术提升产生的影响。

  1.ML如何改进语音技术

  (1)音频更智能

  随着对语音技术的需求开始增长,自动语音识别(ASR)方面的提供商正加大语音识别产品的创新,以满足人们的更多需求。

  语音识别技术的用户在增加,市场规模也在扩大。根据一项研究,到2026年,全球语音识别市场规模将增长到220亿美元。这种巨大的转变将为自动语音识别(ASR)带来挑战,推动其创新并成功应对同种语言中的不同方言,比如以英语为母语的人在不同的国家和地区(例如澳大利亚、英格兰、苏格兰、美国等)就会使用不同的方言。

  只有在ML和AI功能的双重驱动下,自动语音识别(ASR)才能做到将同种语言中不同方言的口语单词转换为文本。此外,它还能够识别来自一种语言的更多方言和口音。换句话说,有一天,全世界使用的每一种语音技术都将使用一个逼真的AI语音生成器。

  关于音频技术中ML的一些真实示例包括:

  iZotope&Neutron 2:贴心的音轨助手能利用AI和ML功能来检测直接向用户提供预设的仪器的跟踪协助。它还具有一个实用程序,用于隔离音频中的对话。

  LANDR:一种自动音频母带处理服务,它完全依赖AI和ML来设置有关数字音频处理的参数。

  Google Wavenet:一种用于生成录音的学习模型。

  (2)数据就是推动力

  计算机的声波部分处理是语音识别的初始步骤,即声音将会转换成数据。因此,要使语音识别社会工程获得成功,这一过程应包括以下内容:

  语音采集样本完全可访问或有可靠的语音数据库。

  由于表征数据集的功能数量较少,消除提高算法学习能力的实用功能。

  ML算法用于创建可靠的分类器,并允许ML算法从训练样本中学习以进行新的观察。

  最后,深度学习适用于语音识别技术,并且在任何环境中的日常使用中都保持精确,因此,语音识别系统可在给定的环境中平稳运行。

  现实中,想要创建语音识别系统的开发人员需要有大量的训练数据。如果从经济角度上来说,这可能需要花费数百万美元来收集正确的转录数据。只有这样,才能对转录数据正确地训练语音识别系统。

  (3)AI和ML中的数字信号处理

  尽管在音频处理中应用AI和ML还处于早期阶段,但深度学习方法使人们能够从不同的角度解决信号处理问题,而这一问题目前正被广大音频行业用户忽视。一般来说,理解声音和信号处理是复杂的,很难用语言来描述。

  例如,听到两个或更多人说话,这两个人互相交谈的参数会如何描述呢?这当中要考虑的因素很多,其中一些问题包括:

  性格(年龄、性别、活力)如何影响这些声音?

  室内声学和距离对理解水平有多大影响?

  谈话过程中可能出现的其他噪音怎么办?

  正如人们所见,对配音的测量可以源自许多参数,并且需要对它们给予重视。在这种情况下,AI可以为人们提供一种实用的方法,为学习创造所需条件。

  深度神经网络音频处理正日益发展,但仍有许多问题需要人们解决,包括:

  高保真音频重建:小型低质量麦克风。

  空间模拟:用于双耳处理和混响。

  选择性降噪:去除某些元素,例如汽车交通。

  模拟音频仿真:估计非线性模拟音频组件之间的复杂交互。

  (4)配音艺术家

  使用深度学习(机器学习)创建自然声音的关键步骤是在这个过程中拥有原始音频。相对而言,世界各地的许多企业都在与配音艺术家合作创作配音产品。大多数配音师在每次使用他们的AI语音时可以获得版税,从而获得丰厚的报酬。

  但是,配音师也会碰到被骗的问题。他们虽然录制了配音,但没有进一步了解使用者是谁。例如,Siri的原声配音人员苏珊·本尼特(Susan Bennett)与ScanSoft公司签订了合同,但她从不知道自己的录音实际上是为苹果公司录制的。她只获得了录制配音的一次性报酬,并没有获得持续收入。

  此外,配音师遇到的其他一些问题是,在现有技术背景下,业内的合同和费用尚未得到很大提升。此外,还有人认为配音可能被负面使用,甚至可能会毁掉配音师的声誉。例如,它可被用于不想与之合作的公司以及用于粗俗的语言。

  (5)用例的兴起

  由于AI和ML能让人们以最自然的方式增加定制体验、找到解决方案、访问服务、进行产品退货,语音技术在各个行业中不断发展。以下是ML和AI如何改变自然语言处理案例的几个例子:

  消费者下订单:另一种在消费行业中涉及语音识别和转录的应用。消费者有机会更快、更有效地订购。不用花时间浏览整个菜单,客户只用语音请求就能在几秒钟内下订单。

  虚拟助理:根据一项研究,到2024年,市场上的语音助手预计将超过84亿台。语音助手可以支持IT帮助台团队等等。通过向虚拟助理提出更多要求,企业员工有更多时间完成日常任务,并更有效地利用时间。

  客户亲密度分析:零售企业开始使用音频挖掘软件来更好地分析呼叫中心的对话,并了解他们的客户。由ML和AI提供支持的自动语音识别(ASR)可以精准了解客户,并从其讨论中提取有价值的见解。

  (6)语音识别技术是未来吗?

  语音识别技术必定在未来大放异彩。随着AI和ML技术不断改进,人们将看到它们的使用场景不断增加。此外,配音师也将获得一席之地。由于可以通过他们协助语音识别技术改进,之后语音技术可能会发展到与人们交谈时带有各种情绪的程度。

  2.结语

  以上就是ML和AI在过去几年为语音技术带来的提升,以及这种提升不断发展的原因。有朝一日,语音技术或将发展至人们与语音助手交谈就像与人交谈一样的程度。

  企业则需要考虑如何将语音技术纳入其业务战略。毕竟,世界正在朝着新的起点和技术路径转变,如果他们把语音识别技术融入业务,将有助于他们脱颖而出。

  图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。