机器学习发展如何助力配音技术提升
人工智能(AI)技术在过去几年发展迅速,为商业人士提供了一种深入学习模式。尽管离在音频世界大展身手还需要一些时间,但人们已经看到AI在视频和图像处理方面的悄然崛起。
作为AI的一部分,机器学习(ML)改变了人们使用配音技术的方式。人们熟悉的Cortana、Siri、Alexa许多语音助手都采用了配音技术。也正是由于AI技术的进步,AI产出的声音变得比以往任何时候都更加真实,并且在自然语音处理方面做得更加出色。
本文将讨论ML和AI已经取得的进展,以及它们如何对语音技术提升产生的影响。
1.ML如何改进语音技术
(1)音频更智能
随着对语音技术的需求开始增长,自动语音识别(ASR)方面的提供商正加大语音识别产品的创新,以满足人们的更多需求。
语音识别技术的用户在增加,市场规模也在扩大。根据一项研究,到2026年,全球语音识别市场规模将增长到220亿美元。这种巨大的转变将为自动语音识别(ASR)带来挑战,推动其创新并成功应对同种语言中的不同方言,比如以英语为母语的人在不同的国家和地区(例如澳大利亚、英格兰、苏格兰、美国等)就会使用不同的方言。
只有在ML和AI功能的双重驱动下,自动语音识别(ASR)才能做到将同种语言中不同方言的口语单词转换为文本。此外,它还能够识别来自一种语言的更多方言和口音。换句话说,有一天,全世界使用的每一种语音技术都将使用一个逼真的AI语音生成器。
关于音频技术中ML的一些真实示例包括:
iZotope&Neutron 2:贴心的音轨助手能利用AI和ML功能来检测直接向用户提供预设的仪器的跟踪协助。它还具有一个实用程序,用于隔离音频中的对话。
LANDR:一种自动音频母带处理服务,它完全依赖AI和ML来设置有关数字音频处理的参数。
Google Wavenet:一种用于生成录音的学习模型。
(2)数据就是推动力
计算机的声波部分处理是语音识别的初始步骤,即声音将会转换成数据。因此,要使语音识别社会工程获得成功,这一过程应包括以下内容:
语音采集样本完全可访问或有可靠的语音数据库。
由于表征数据集的功能数量较少,消除提高算法学习能力的实用功能。
ML算法用于创建可靠的分类器,并允许ML算法从训练样本中学习以进行新的观察。
最后,深度学习适用于语音识别技术,并且在任何环境中的日常使用中都保持精确,因此,语音识别系统可在给定的环境中平稳运行。
现实中,想要创建语音识别系统的开发人员需要有大量的训练数据。如果从经济角度上来说,这可能需要花费数百万美元来收集正确的转录数据。只有这样,才能对转录数据正确地训练语音识别系统。
(3)AI和ML中的数字信号处理
尽管在音频处理中应用AI和ML还处于早期阶段,但深度学习方法使人们能够从不同的角度解决信号处理问题,而这一问题目前正被广大音频行业用户忽视。一般来说,理解声音和信号处理是复杂的,很难用语言来描述。
例如,听到两个或更多人说话,这两个人互相交谈的参数会如何描述呢?这当中要考虑的因素很多,其中一些问题包括:
性格(年龄、性别、活力)如何影响这些声音?
室内声学和距离对理解水平有多大影响?
谈话过程中可能出现的其他噪音怎么办?
正如人们所见,对配音的测量可以源自许多参数,并且需要对它们给予重视。在这种情况下,AI可以为人们提供一种实用的方法,为学习创造所需条件。
深度神经网络音频处理正日益发展,但仍有许多问题需要人们解决,包括:
高保真音频重建:小型低质量麦克风。
空间模拟:用于双耳处理和混响。
选择性降噪:去除某些元素,例如汽车交通。
模拟音频仿真:估计非线性模拟音频组件之间的复杂交互。
(4)配音艺术家
使用深度学习(机器学习)创建自然声音的关键步骤是在这个过程中拥有原始音频。相对而言,世界各地的许多企业都在与配音艺术家合作创作配音产品。大多数配音师在每次使用他们的AI语音时可以获得版税,从而获得丰厚的报酬。
但是,配音师也会碰到被骗的问题。他们虽然录制了配音,但没有进一步了解使用者是谁。例如,Siri的原声配音人员苏珊·本尼特(Susan Bennett)与ScanSoft公司签订了合同,但她从不知道自己的录音实际上是为苹果公司录制的。她只获得了录制配音的一次性报酬,并没有获得持续收入。
此外,配音师遇到的其他一些问题是,在现有技术背景下,业内的合同和费用尚未得到很大提升。此外,还有人认为配音可能被负面使用,甚至可能会毁掉配音师的声誉。例如,它可被用于不想与之合作的公司以及用于粗俗的语言。
(5)用例的兴起
由于AI和ML能让人们以最自然的方式增加定制体验、找到解决方案、访问服务、进行产品退货,语音技术在各个行业中不断发展。以下是ML和AI如何改变自然语言处理案例的几个例子:
消费者下订单:另一种在消费行业中涉及语音识别和转录的应用。消费者有机会更快、更有效地订购。不用花时间浏览整个菜单,客户只用语音请求就能在几秒钟内下订单。
虚拟助理:根据一项研究,到2024年,市场上的语音助手预计将超过84亿台。语音助手可以支持IT帮助台团队等等。通过向虚拟助理提出更多要求,企业员工有更多时间完成日常任务,并更有效地利用时间。
客户亲密度分析:零售企业开始使用音频挖掘软件来更好地分析呼叫中心的对话,并了解他们的客户。由ML和AI提供支持的自动语音识别(ASR)可以精准了解客户,并从其讨论中提取有价值的见解。
(6)语音识别技术是未来吗?
语音识别技术必定在未来大放异彩。随着AI和ML技术不断改进,人们将看到它们的使用场景不断增加。此外,配音师也将获得一席之地。由于可以通过他们协助语音识别技术改进,之后语音技术可能会发展到与人们交谈时带有各种情绪的程度。
2.结语
以上就是ML和AI在过去几年为语音技术带来的提升,以及这种提升不断发展的原因。有朝一日,语音技术或将发展至人们与语音助手交谈就像与人交谈一样的程度。
企业则需要考虑如何将语音技术纳入其业务战略。毕竟,世界正在朝着新的起点和技术路径转变,如果他们把语音识别技术融入业务,将有助于他们脱颖而出。
图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。