观点：从七个方面看人工智能的失败

2022-07-05来源：AI数据派

从检测癌症到决定谁接受岗位面试，AI系统在很多问题上都能做得比人类更快、更准确、更可靠、更公正。不过AI也经历了无数次失败，有时甚至是致命的失败。AI的日益普及也意味着失败不仅会影响个人，还会影响数百万人。

AI界正在越来越多地记录这些失败，以监控它们可能带来的风险。“帮助用户了解这些系统的工作原理及其意义的信息往往很少。”AI、算法和自动化事件与争议存储库的创始人查理•鲍纳尔（Charlie Pownall）说，“我认为这直接影响了人们对这些系统的信任和信心。导致各组织机构不愿意深入了解AI事件或争议中到底发生了什么的原因可能有很多，而不仅仅是潜在的法律风险，但如果从可信的角度来看，这样做对他们最有利。”

部分问题在于，驱动很多AI系统的神经网络技术可能会以某种方式崩溃，这对研究人员来说仍然是个谜。加州大学伯克利分校的计算机科学家丹•亨德里克斯（Dan Hendrycks）说：“AI擅长解决哪些问题尚不可预知，因为我们还不太了解智能本身。”

以下是7个AI失败的例子，以及它们揭示了当前AI的哪些弱点。科学家们正在讨论解决其中一些问题的可能方法；其他问题目前尚无法解释，或者从哲学角度讲，可能完全缺乏任何结论性解决方案。

01. 脆弱性

拍一张校车的照片，然后翻转照片使其侧面着地，就像在现实世界发生事故时那样。2018年的一项研究发现，在通常能够正确识别正面朝上的校车的最先进的AI系统中，平均有97%的系统无法识别出旋转后的校车。

阿拉巴马州奥本大学的计算机科学家阮安（Anh Nguyen，音）说：“它们会信心十足地说校车是一辆扫雪车。”他说，AI无法完成“甚至我3岁的儿子也能完成的”心理旋转任务。

这种失败就是一个脆弱性例子。AI通常“只能识别它以前见过的模式”，阮安说。“如果向它展示一种新模式，它就很容易上当。”

恼人的AI脆弱性案例很多。将贴纸贴在停车标志上会使AI误读。改变图像上的一个像素就能让AI将马认作青蛙。99.99%的神经网络会确信多色静电是一张狮子的图像。以肉眼无法察觉的方式修改医学图像后，AI系统会100%地误诊为癌症。诸如此类。

亨德里克斯说，有一种方法可能会让AI更强大地应对此类失败，那就是让它们尽可能多地暴露在令人困惑的“对抗性”例子中。然而，它们仍可能在罕见的“黑天鹅”事件中失败。“新冠病毒或经济衰退这样的黑天鹅问题，即使是人类也很难解决，这可能不是ML特有的问题。”他指出。

02. 固有偏见

AI越来越多地被用于支持重大决策，例如谁能获得贷款、刑期长短以及谁先获得医疗卫生服务。人们希望AI能够比人类更加公正地做出决策，但很多研究发现，如果训练这些AI所使用的数据存在偏见，那么可能会导致集体自动歧视，给社会带来巨大风险。

例如，2019年，科学家发现美国在全国部署的一个医疗算法中存在种族偏见，影响了数百万美国人。该AI的设计初衷是确定哪些患者能享受重症监护计划带来的益处，但它却常规地将更健康的白人患者纳入此类计划，让他们排在了病情更严重的黑人患者前面。

加州大学伯克利分校的研究人员齐亚德•奥博迈尔（Ziad Obermeyer）是一名医生，他和同事发现，该算法错误地认为医疗费用高的人是病得最重、最需要照顾的人。然而，由于系统的种族歧视，“黑人患者在需要医疗卫生服务时更不太可能得到服务，因此也不太可能产生费用，”他解释道。

在与软件开发人员合作后，奥博迈尔及其同事帮助设计了一种新的算法，通过分析其他变量，减少了84%的偏见。他说：“还需要做更多工作，但要打败偏见并非不可能。”他们最近撰写了一份指南，概述了政府、企业和其他组织可以实施的一些基本步骤，以发现和防止其当前和未来使用的软件中存在偏见。相关步骤囊括：识别其使用的所有算法、了解该软件的理想目标及其在实现目标方面的表现、必要时对AI进行再训练，以及建立一个高级监督机构。

03. 灾难性遗忘

深度伪造（deepfake）是指人工生成高度真实的虚假图像和视频（通常有关名人、政客和其他公众人物），这种情况在互联网和社交媒体上越来越普遍，它们能够欺骗性地描绘人们说了或做了并未真正发生过的事情，从而造成巨大伤害。为了开发出能够识别深度伪造的AI，韩国成均馆大学的计算机科学家沙罗兹•塔里克（Shahroz Tariq）及其同事创建了一个网站，人们可以上传图像来检查图像的真实性。

起初，研究人员训练了他们的神经网络来识别一种深度伪造。然而，几个月后又出现了很多新型的深度伪造，在他们训练AI来识别这些新型深度伪造时，AI很快就忘记了如何识别旧的深度伪造。

这是一个灾难性遗忘的例子，AI可能会在学习新信息后突然完全忘记以前知道的信息，基本上是用新知识覆盖过去的知识。“人工神经网络的记忆力很差。”塔里克说。

AI研究人员正在寻找各种策略来防止灾难性遗忘，这样神经网络就可以像人类一样，毫不费力地持续学习。有一种简单的技术，那就是为每一个新任务创建一个专门的神经网络，例如，把猫与狗或苹果与橘子区分开来，“但这显然是不可扩展的，因为网络的数量会随着任务的数量而线性增加。”英格兰牛津大学的ML研究员萨姆•凯斯勒（Sam Kessler）说。

在训练其AI识别新型深度伪造时，塔里克及其同事探索了另一种方法，即向它提供少量关于它是如何识别旧类型深度伪造的数据，这样它就不会忘记如何识别它们了。塔里克说，这实际上就像考试前复习课本的章节小结一样。

然而，AI也许并不是总能获得过去的知识，比如，处理医疗记录等私人信息时。塔里克及同事希望能制造一种不依赖先前任务数据的AI。他们让它自己训练如何发现新型深度伪造，同时也从另一个AI那里学习如何识别旧类型的深度伪造。他们发现，在识别社交媒体上经常分享的低质量深度伪造方面，这种“知识精炼”策略的准确率约为87%。

04. 可解释性

为什么AI会怀疑某个人可能是罪犯或患有癌症？对这类以及其他高风险预测的解释会产生很多法律、医学和其他后果。长期以来，AI是如何得出结论的一直仿佛是一个神秘的黑匣子，很多人都试图解释AI的内部运作方式。“然而，我最近的研究表明，可解释性领域有点陷入僵局。”奥本大学的阮安说。

阮安及其同事研究了研究人员为解释人工智决策（例如，是什么决定了火柴棍的图像是火柴棍，是火焰还是木棍？）而开发的7种不同技术。他们发现这些方法有很多都“非常不稳定”。阮安说：“它们每次都能给你不同的解释。”

此外，虽然一种归因方法可能适用于一组神经网络，“但它可能在另一组神经网络上完全失败。”阮安补充道。他说，可解释性的未来可能需要为正确解释建立数据库。然后，归因方法可以进入这些知识库，“并搜索可能解释决策依据的事实。”他说。

05. 量化不确定性

2016年，在佛罗里达州北部，一辆开启了自动驾驶系统的特斯拉Model S汽车与其前方一辆左转的卡车相撞，导致驾驶员死亡，这是报告的第一个与自动驾驶系统有关的死亡案例。特斯拉的官方日志表明，无论是自动驾驶系统还是驾驶员“都没有在明亮的天空下注意到货运卡车白色的一侧，因此没有踩刹车。”

有一个办法也许能帮助特斯拉、优步和其他公司避免此类灾难，即提高其汽车在计算和处理不确定性方面的表现。目前，AI“非常确信，即便它们大错特错”，牛津大学的凯斯勒说。如果算法做出了一个决定，“我们应该充分地了解它对这个决定有多大信心，特别是对于医疗诊断或自动驾驶汽车来说，如果它非常不确定，那么人类可以介入并给出（他们）自己对形势的判断或评估。”

例如，澳大利亚迪肯大学的计算机科学家穆卢德•阿卜杜尔（Moloud Abdar）及其同事在AI将皮肤癌图像归为恶性或良性，或者黑色素瘤或非黑色素瘤时，应用了几种不同的不确定性量化技术。研究人员发现，这些方法有助于防止AI做出过于自信的诊断。

自动驾驶汽车在量化不确定性方面依然存在挑战，因为目前的不确定性量化技术通常比较耗时，“而汽车无法等待，”阿卜杜尔说，“我们需要更快的办法。”

06. 常识

南加州大学计算机科学家任翔（Xiang Ren，音）说，AI缺乏常识，即根据人们通常认为理所当然的广泛日常知识背景，得出可接受的合理结论的能力。他说：“如果不充分重视这些模型的实际学习内容，那么它们就会学习一些导致其发生故障的捷径。”

例如，科学家可能会用仇恨言论异常多的地方的数据来训练AI识别仇恨言论，比如白人至上主义论坛。然而，当这个软件暴露在现实世界中时，它可能认识不到黑人和同性恋者可能比其他群体更经常地使用“黑人”和“同性恋”这两个词。“即使一个帖子引用了一篇不带任何感情色彩提到犹太人、黑人或同性恋的新闻文章，它也可能被错误地归为仇恨言论。”任翔说。对比之下，“当一个形容词被用在仇恨语境时，人类通读整个句子就能识别出来。”

此前的研究表明，最先进的AI能够以高达90%左右的准确率得出关于世界的逻辑推断，这表明它们正在常识方面取得进步。然而，在测试这些模型时，任翔及其同事发现，即使是最好的AI，生成逻辑连贯的句子的准确率也不到32%。当谈到发展常识能力时，他说：“最近我们AI界非常关心的一件事是，利用更全面的检查表来从多个维度查看模型的行为。”

07. 数学

虽然传统计算机很擅长处理数字，但AI“在数学方面却出人意料地糟糕”，加州大学伯克利分校的亨德里克斯说。“你的模型可能是最新、最强大的，能使用数百个GPU来训练，但它们仍然不如袖珍计算器可靠。”

例如，亨德里克斯及其同事用数十万个数学问题训练了AI，并给出逐步解答。然而，在用1.25万道高中数学竞赛题测试时，“它的准确率只有5%左右。”他说。对比之下，一位3次获得国际数学奥林匹克比赛金牌的选手“在没有计算器的情况下”解答这些问题的准确率达90%。

如今的神经网络可以学会解决几乎每一种问题，“只要你给它足够的数据和足够的资源，但数学问题不行。”亨德里克斯说。他表示，科学中的很多问题都需要大量的数学知识，因此目前AI的这一弱点可能会限制它在科学研究中的应用。

目前尚不清楚为什么AI在数学方面表现不佳。有一种可能是，神经网络是像人脑一样以高度并行的方式来处理问题的，而数学问题通常需要一系列的步骤来解答，因此AI处理数据的方式可能不适合这类任务，“就像人类通常无法在头脑中进行大量计算一样。”亨德里克斯说。然而，AI在数学方面的糟糕表现“仍然是一个小众话题，这个问题没有多少吸引力”，他补充道。

　　图片使用申明：原创文章图片源自‘Canva可画’平台免费版权图片素材；引用文章源自引用平台文章中所使用的原图。

观点：从七个方面看人工智能的失败

相关文章