观点:从七个方面看人工智能的失败
从检测癌症到决定谁接受岗位面试,AI系统在很多问题上都能做得比人类更快、更准确、更可靠、更公正。不过AI也经历了无数次失败,有时甚至是致命的失败。AI的日益普及也意味着失败不仅会影响个人,还会影响数百万人。
AI界正在越来越多地记录这些失败,以监控它们可能带来的风险。“帮助用户了解这些系统的工作原理及其意义的信息往往很少。”AI、算法和自动化事件与争议存储库的创始人查理•鲍纳尔(Charlie Pownall)说,“我认为这直接影响了人们对这些系统的信任和信心。导致各组织机构不愿意深入了解AI事件或争议中到底发生了什么的原因可能有很多,而不仅仅是潜在的法律风险,但如果从可信的角度来看,这样做对他们最有利。”
部分问题在于,驱动很多AI系统的神经网络技术可能会以某种方式崩溃,这对研究人员来说仍然是个谜。加州大学伯克利分校的计算机科学家丹•亨德里克斯(Dan Hendrycks)说:“AI擅长解决哪些问题尚不可预知,因为我们还不太了解智能本身。”
以下是7个AI失败的例子,以及它们揭示了当前AI的哪些弱点。科学家们正在讨论解决其中一些问题的可能方法;其他问题目前尚无法解释,或者从哲学角度讲,可能完全缺乏任何结论性解决方案。
01. 脆弱性
拍一张校车的照片,然后翻转照片使其侧面着地,就像在现实世界发生事故时那样。2018年的一项研究发现,在通常能够正确识别正面朝上的校车的最先进的AI系统中,平均有97%的系统无法识别出旋转后的校车。
阿拉巴马州奥本大学的计算机科学家阮安(Anh Nguyen,音)说:“它们会信心十足地说校车是一辆扫雪车。”他说,AI无法完成“甚至我3岁的儿子也能完成的”心理旋转任务。
这种失败就是一个脆弱性例子。AI通常“只能识别它以前见过的模式”,阮安说。“如果向它展示一种新模式,它就很容易上当。”
恼人的AI脆弱性案例很多。将贴纸贴在停车标志上会使AI误读。改变图像上的一个像素就能让AI将马认作青蛙。99.99%的神经网络会确信多色静电是一张狮子的图像。以肉眼无法察觉的方式修改医学图像后,AI系统会100%地误诊为癌症。诸如此类。
亨德里克斯说,有一种方法可能会让AI更强大地应对此类失败,那就是让它们尽可能多地暴露在令人困惑的“对抗性”例子中。然而,它们仍可能在罕见的“黑天鹅”事件中失败。“新冠病毒或经济衰退这样的黑天鹅问题,即使是人类也很难解决,这可能不是ML特有的问题。”他指出。
02. 固有偏见
AI越来越多地被用于支持重大决策,例如谁能获得贷款、刑期长短以及谁先获得医疗卫生服务。人们希望AI能够比人类更加公正地做出决策,但很多研究发现,如果训练这些AI所使用的数据存在偏见,那么可能会导致集体自动歧视,给社会带来巨大风险。
例如,2019年,科学家发现美国在全国部署的一个医疗算法中存在种族偏见,影响了数百万美国人。该AI的设计初衷是确定哪些患者能享受重症监护计划带来的益处,但它却常规地将更健康的白人患者纳入此类计划,让他们排在了病情更严重的黑人患者前面。
加州大学伯克利分校的研究人员齐亚德•奥博迈尔(Ziad Obermeyer)是一名医生,他和同事发现,该算法错误地认为医疗费用高的人是病得最重、最需要照顾的人。然而,由于系统的种族歧视,“黑人患者在需要医疗卫生服务时更不太可能得到服务,因此也不太可能产生费用,”他解释道。
在与软件开发人员合作后,奥博迈尔及其同事帮助设计了一种新的算法,通过分析其他变量,减少了84%的偏见。他说:“还需要做更多工作,但要打败偏见并非不可能。”他们最近撰写了一份指南,概述了政府、企业和其他组织可以实施的一些基本步骤,以发现和防止其当前和未来使用的软件中存在偏见。相关步骤囊括:识别其使用的所有算法、了解该软件的理想目标及其在实现目标方面的表现、必要时对AI进行再训练,以及建立一个高级监督机构。
03. 灾难性遗忘
深度伪造(deepfake)是指人工生成高度真实的虚假图像和视频(通常有关名人、政客和其他公众人物),这种情况在互联网和社交媒体上越来越普遍,它们能够欺骗性地描绘人们说了或做了并未真正发生过的事情,从而造成巨大伤害。为了开发出能够识别深度伪造的AI,韩国成均馆大学的计算机科学家沙罗兹•塔里克(Shahroz Tariq)及其同事创建了一个网站,人们可以上传图像来检查图像的真实性。
起初,研究人员训练了他们的神经网络来识别一种深度伪造。然而,几个月后又出现了很多新型的深度伪造,在他们训练AI来识别这些新型深度伪造时,AI很快就忘记了如何识别旧的深度伪造。
这是一个灾难性遗忘的例子,AI可能会在学习新信息后突然完全忘记以前知道的信息,基本上是用新知识覆盖过去的知识。“人工神经网络的记忆力很差。”塔里克说。
AI研究人员正在寻找各种策略来防止灾难性遗忘,这样神经网络就可以像人类一样,毫不费力地持续学习。有一种简单的技术,那就是为每一个新任务创建一个专门的神经网络,例如,把猫与狗或苹果与橘子区分开来,“但这显然是不可扩展的,因为网络的数量会随着任务的数量而线性增加。”英格兰牛津大学的ML研究员萨姆•凯斯勒(Sam Kessler)说。
在训练其AI识别新型深度伪造时,塔里克及其同事探索了另一种方法,即向它提供少量关于它是如何识别旧类型深度伪造的数据,这样它就不会忘记如何识别它们了。塔里克说,这实际上就像考试前复习课本的章节小结一样。
然而,AI也许并不是总能获得过去的知识,比如,处理医疗记录等私人信息时。塔里克及同事希望能制造一种不依赖先前任务数据的AI。他们让它自己训练如何发现新型深度伪造,同时也从另一个AI那里学习如何识别旧类型的深度伪造。他们发现,在识别社交媒体上经常分享的低质量深度伪造方面,这种“知识精炼”策略的准确率约为87%。
04. 可解释性
为什么AI会怀疑某个人可能是罪犯或患有癌症?对这类以及其他高风险预测的解释会产生很多法律、医学和其他后果。长期以来,AI是如何得出结论的一直仿佛是一个神秘的黑匣子,很多人都试图解释AI的内部运作方式。“然而,我最近的研究表明,可解释性领域有点陷入僵局。”奥本大学的阮安说。
阮安及其同事研究了研究人员为解释人工智决策(例如,是什么决定了火柴棍的图像是火柴棍,是火焰还是木棍?)而开发的7种不同技术。他们发现这些方法有很多都“非常不稳定”。阮安说:“它们每次都能给你不同的解释。”
此外,虽然一种归因方法可能适用于一组神经网络,“但它可能在另一组神经网络上完全失败。”阮安补充道。他说,可解释性的未来可能需要为正确解释建立数据库。然后,归因方法可以进入这些知识库,“并搜索可能解释决策依据的事实。”他说。
05. 量化不确定性
2016年,在佛罗里达州北部,一辆开启了自动驾驶系统的特斯拉Model S汽车与其前方一辆左转的卡车相撞,导致驾驶员死亡,这是报告的第一个与自动驾驶系统有关的死亡案例。特斯拉的官方日志表明,无论是自动驾驶系统还是驾驶员“都没有在明亮的天空下注意到货运卡车白色的一侧,因此没有踩刹车。”
有一个办法也许能帮助特斯拉、优步和其他公司避免此类灾难,即提高其汽车在计算和处理不确定性方面的表现。目前,AI“非常确信,即便它们大错特错”,牛津大学的凯斯勒说。如果算法做出了一个决定,“我们应该充分地了解它对这个决定有多大信心,特别是对于医疗诊断或自动驾驶汽车来说,如果它非常不确定,那么人类可以介入并给出(他们)自己对形势的判断或评估。”
例如,澳大利亚迪肯大学的计算机科学家穆卢德•阿卜杜尔(Moloud Abdar)及其同事在AI将皮肤癌图像归为恶性或良性,或者黑色素瘤或非黑色素瘤时,应用了几种不同的不确定性量化技术。研究人员发现,这些方法有助于防止AI做出过于自信的诊断。
自动驾驶汽车在量化不确定性方面依然存在挑战,因为目前的不确定性量化技术通常比较耗时,“而汽车无法等待,”阿卜杜尔说,“我们需要更快的办法。”
06. 常识
南加州大学计算机科学家任翔(Xiang Ren,音)说,AI缺乏常识,即根据人们通常认为理所当然的广泛日常知识背景,得出可接受的合理结论的能力。他说:“如果不充分重视这些模型的实际学习内容,那么它们就会学习一些导致其发生故障的捷径。”
例如,科学家可能会用仇恨言论异常多的地方的数据来训练AI识别仇恨言论,比如白人至上主义论坛。然而,当这个软件暴露在现实世界中时,它可能认识不到黑人和同性恋者可能比其他群体更经常地使用“黑人”和“同性恋”这两个词。“即使一个帖子引用了一篇不带任何感情色彩提到犹太人、黑人或同性恋的新闻文章,它也可能被错误地归为仇恨言论。”任翔说。对比之下,“当一个形容词被用在仇恨语境时,人类通读整个句子就能识别出来。”
此前的研究表明,最先进的AI能够以高达90%左右的准确率得出关于世界的逻辑推断,这表明它们正在常识方面取得进步。然而,在测试这些模型时,任翔及其同事发现,即使是最好的AI,生成逻辑连贯的句子的准确率也不到32%。当谈到发展常识能力时,他说:“最近我们AI界非常关心的一件事是,利用更全面的检查表来从多个维度查看模型的行为。”
07. 数学
虽然传统计算机很擅长处理数字,但AI“在数学方面却出人意料地糟糕”,加州大学伯克利分校的亨德里克斯说。“你的模型可能是最新、最强大的,能使用数百个GPU来训练,但它们仍然不如袖珍计算器可靠。”
例如,亨德里克斯及其同事用数十万个数学问题训练了AI,并给出逐步解答。然而,在用1.25万道高中数学竞赛题测试时,“它的准确率只有5%左右。”他说。对比之下,一位3次获得国际数学奥林匹克比赛金牌的选手“在没有计算器的情况下”解答这些问题的准确率达90%。
如今的神经网络可以学会解决几乎每一种问题,“只要你给它足够的数据和足够的资源,但数学问题不行。”亨德里克斯说。他表示,科学中的很多问题都需要大量的数学知识,因此目前AI的这一弱点可能会限制它在科学研究中的应用。
目前尚不清楚为什么AI在数学方面表现不佳。有一种可能是,神经网络是像人脑一样以高度并行的方式来处理问题的,而数学问题通常需要一系列的步骤来解答,因此AI处理数据的方式可能不适合这类任务,“就像人类通常无法在头脑中进行大量计算一样。”亨德里克斯说。然而,AI在数学方面的糟糕表现“仍然是一个小众话题,这个问题没有多少吸引力”,他补充道。
图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。