沃卡logo

九次著名的统计分析和人工智能灾难

2023-10-26来源:

2017 年,《经济学人》杂志宣布,数据而非石油已成为世界上最有价值的资源。从那时起,这句话就一直在重复。各行各业的组织已经并将继续在数据和分析方面投入巨资。但与石油一样,数据和分析也有其阴暗面。

根据 CIO 网站发布的《2023 年CIO状况》报告,34% 的 IT 领导者表示,数据和业务分析将成为他们所在企业今年最大的 IT 投资驱动力。而 26% 的 IT 领导者表示,机器学习/人工智能将推动最多的 IT 投资。从分析中获得的洞察力和机器学习算法驱动的行动可以为企业带来竞争优势,但失误可能会在声誉、收入甚至生命方面造成巨大损失。

了解你的数据和它告诉你的信息固然重要,但同样重要的是掌握你的工具、了解你的数据,并牢记组织的价值观。

以下这些在过去十年中发生的备受瞩目的统计分析和人工智能方面的失误,提示我们可能出现的问题。

01Gannett AI弄错高中体育文章

2023 年 8 月,连锁报业集团 Gannett 宣布将暂停使用一款名为 LedeAI 的人工智能工具,因为该人工智能撰写的几篇文章因重复、文笔差和缺乏关键细节而走红网络。

美国有线电视新闻网(CNN)指出了互联网档案馆 Wayback Machine 保存的一个例子,它的开篇是这样写的:“周六,在俄亥俄州的一场男子足球比赛中,Worthington Christian 队 [WINNING_TEAM_MASCOT] 以 2-1 的比分击败了Westerville North 队 [LOSING_TEAM_MASCOT]。”

CNN 在其他地区的 Gannett 集团所属的报纸上也发现了由 LedeAI 撰写的类似报道,包括《路易斯维尔信使报》、《亚利桑那中央报》、《今日佛罗里达》和《密尔沃基哨兵报》。

这些报道的行文在社交媒体上遭到广泛嘲讽后,Gannett 选择在所有使用 LedeAI 服务的地方媒体上暂停使用该服务。

在给 CNN 的一份声明中,LedeAI 首席执行官 Jay Allred 表示遗憾,并承诺将尽早改正这些问题。

02iTutorGroup 的招聘人工智能以年龄为由拒绝应聘者

2023 年 8 月,家教公司 iTutorGroup 同意支付 36.5 万美元,以解决美国平等就业机会委员会(EEOC)提起的诉讼。联邦机构称,这家为中国学生提供远程辅导服务的公司使用人工智能驱动的招聘软件,自动拒绝 55 岁及以上的女性申请人和 60 岁及以上的男性申请人。

平等就业机会委员会称,该软件自动拒绝了 200 多名合格的求职者。

EEOC 主席 Charlotte A. Burrows 在一份声明中说:“年龄歧视是不公正和非法的。即使是由于技术实现歧视的自动化,雇主仍应承担责任。”

iTutorGroup 否认有任何不当行为,但决定就诉讼达成和解。作为和解和同意令的一部分,iTutorGroup 同意采取新的反歧视政策。

03ChatGPT 幻化法庭案例

大型语言模型(LLM)在 2023 年取得的进展激发了人们对生成式人工智能在几乎所有行业的变革潜力的广泛兴趣。OpenAI 的 ChatGPT 是这股热潮的中心,它预示着生成式人工智能将如何在几乎所有商业领域颠覆工作的本质。

但这项技术要想可靠地接管大多数业务流程还有很长的路要走,正如Steven A. Schwartz 律师在 2023 年发现自己与美国地区法官 P. Kevin Castel 发生争执时所了解到的那样,他在起诉哥伦比亚航空公司 Avianca 时使用了 ChatGPT 来研究先例。

Schwartz 是 Levidow, Levidow & Oberman 律师事务所的律师,他使用 OpenAI 生成式人工智能聊天机器人查找以前的案例,以支持 Avianca 航空公司雇员 Roberto Mata 就其在 2019 年所受伤害提起的诉讼。你一定会关心问题是什么?问题是辩护状中提交的案例中至少有6个是不存在的。在 5 月份提交的一份文件中,Castel 法官指出,Schwartz 提交的案件包括虚假的名称和备审案件号,以及虚假的内部引用和引文。Schwartz 的合伙人 Peter LoDuca 是 Mata 的注册律师,并在辩护状上签了名,这也让他自己陷入了危险之中。

Schwartz 在一份宣誓书中告诉法庭,这是他第一次使用 ChatGPT 作为法律研究来源,他“没有意识到其内容可能是虚假的”。他承认自己没有确认人工智能聊天机器人提供的信息来源。他还说,他 “非常后悔利用生成式人工智能来补充在此进行的法律研究,承诺今后在没有绝对核实其真实性的情况下绝不会这样做”。

2023 年 6 月,Castel 法官对 Schwartz 和 LoDuca 处以 5000 美元的罚款。在今年 6 月的另一项裁决中,Castel 法官驳回了 Mata 对 Avianca 航空公司的诉讼。

04人工智能算法可识别除 COVID-19 以外的所有病毒

自 COVID-19 大流行开始以来,许多机构都在寻求应用机器学习(ML)算法来帮助医院更快地诊断或分流病人。但据英国 Turing Institute(英国的国家数据科学与人工智能研究机构)称,这些预测工具几乎没有起到任何作用。

《MIT Technology Review》记录了一系列失败案例,其中大部分源于工具训练或测试方法的错误。使用标记错误的数据或来源不明的数据是常见的罪魁祸首。

剑桥大学的机器学习研究员 Derek Driggs 及其同事在《Nature Machine Intelligence》杂志上发表了一篇论文,探讨了使用深度学习模型诊断病毒的问题。论文认为该技术不适合临床使用。例如,Driggs 的研究小组发现,他们自己的模型存在缺陷,因为该模型是在一个数据集上训练的,该数据集包括躺姿扫描的病人和站姿扫描的病人。躺着的病人更有可能患重病,因此算法学会了根据扫描过程中人的姿势来识别 COVID 风险。

类似的例子还包括使用数据集训练算法,该数据集包括健康儿童的胸部扫描结果。该算法学会了识别儿童,而不是高风险患者。

05Zillow 因算法购房灾难减记数百万美元并裁员

2021 年 11 月,在线房地产市场 Zillow 向股东表示,将在接下来的几个季度里关闭 Zillow Offers 业务,并裁员 25%,约 2000 人。旧屋翻新部门的困境是其用于预测房价的机器学习算法的错误率造成的。

Zillow Offers 是该公司根据机器学习算法 Zestimate 对房屋估价后对房产进行现金收购的项目。他们的设想是翻新这些房产,然后迅速出售。但 Zillow 发言人告诉 CNN,该算法的中位误差率为 1.9%,而那些未公开出售房屋资源的误差率可能更是高达 6.9%。

CNN 报道称,自 2018 年 4 月推出 Zillow Offers 以来,Zillow 通过该平台购买了 2.7 万套房屋,但截至 2021 年 9 月底仅售出 1.7 万套。COVID-19 大流行和房屋装修劳动力短缺等黑天鹅事件导致了该算法的准确性出现问题。

Zillow 表示,该算法导致其无意中以高于目前对未来售价估计的价格购买了房屋,导致 2021 年第三季度的库存减记达 3.04 亿美元。

Zillow 联合创始人兼首席执行官 Rich Barton 在声明发布后的投资者电话会议上表示,也许可以调整算法,但无论如何承担风险太大。

06医疗保险算法将黑人患者排除

2019 年,发表在《科学》(Science)杂志上的一项研究显示,美国各地的医院和保险公司用来识别需要 “高风险护理管理”项目的患者的医疗预测算法,不太可能将黑人患者纳入其中。

高风险护理管理计划为慢性病患者提供训练有素的护理人员和初级保健监测,以预防严重并发症的发生。但与黑人患者相比,该算法更倾向于推荐白人患者参加这些项目。

研究发现,该算法将医疗支出作为确定个人医疗需求的替代指标。但据《科学美国人》报道,病情较重的黑人患者的医疗费用与较健康的白人患者的费用相当,这意味着即使他们的需求更大,他们得到的风险评分也较低。

该研究的研究人员认为,可能有几个因素造成了这种情况。首先,有色人种更有可能收入较低,这可能使他们即使有保险也不太容易获得医疗服务。隐性偏见也可能导致有色人种获得较低质量的医疗服务。

虽然这项研究没有指出算法或开发者的名字,但研究人员告诉《科学美国人》,他们正在与开发者合作解决这一问题。

07数据集训练微软聊天机器人发表种族主义推文

2016 年 3 月,微软了解到,使用 Twitter 互动作为机器学习算法的训练数据可能会产生令人沮丧的结果。

微软在社交媒体平台上发布了人工智能聊天机器人 Tay。该公司将其描述为 “对话理解”实验。当时的设想是,这个聊天机器人将假扮成一个十几岁的女孩,利用机器学习和自然语言处理相结合的方法,通过 Twitter 与个人互动。微软将匿名的公共数据和一些喜剧演员预先写好的材料作为种子,然后让它在社交网络的互动中学习和发展。

在 16 个小时内,聊天机器人发布了 95,000 多条推文,这些推文迅速变成了明显的种族主义、歧视女性和反犹太言论。微软迅速暂停该服务进行调整,并最终拔掉了插头。

事件发生后,微软研究与孵化部门企业副总裁(时任微软医疗保健部门企业副总裁)Peter Lee 在微软官方博客上发文写道:“我们对Tay无意中发出的攻击性和伤害性推文深表歉意。这些推文并不代表我们的身份和立场,也不代表我们设计 Tay 的方式。”

Lee 指出,2014 年微软在中国发布的 Tay 的前身 “小冰”,并在 Tay 发布前的两年里成功地与 4000 多万人进行了对话。微软没有考虑到的是,一群推特用户会立即开始在推特上向 Tay 发表种族主义和厌女主义的评论。该机器人迅速从这些材料中学习,并将这些素材融入自己的推特。

Lee 写道:“尽管我们已经为许多类型的系统滥用做好了准备,但在这次特定的攻击中,我们还是出现了严重的疏忽。结果,Tay 在推特上发布了大量不恰当且应受谴责的文字和图片。”

08Amazon公司人工智能招聘工具只推荐男性

与许多大公司一样,Amazon 也渴望获得能帮助其人力资源部门筛选最佳人选的工具。2014 年,Amazon 开始研发人工智能驱动的招聘软件来实现这一目标。问题只有一个:该系统极度偏爱男性求职者。2018 年, Reuters 爆料称,Amazon 已经取消了该项目。

Amazon 的系统会给应聘者打 1 到 5 分的星级,但系统核心的机器学习模型是根据 10 年来向 Amazon 提交的简历训练出来的,其中大部分来自男性。训练数据的结果是,该系统开始惩罚简历中包含“女性”一词的短语,甚至给来自全女子学院的应聘者降级。

当时,Amazon 表示,Amazon 的招聘人员从未使用过该工具来评估应聘者。

该公司试图编辑该工具,使其保持中立,但最终决定不能保证它不会学到其他歧视性的应聘者排序方法,因此终止了该项目。

09Target 分析侵犯隐私

2012 年,零售巨头 Target 的一个分析项目展示了公司可以从数据中了解到多少关于客户的信息。据《纽约时报》报道,2002 年,Target 的营销部门开始琢磨如何判断顾客是否怀孕。这个问题引发了一个预测分析项目,导致该零售商无意中向一位少女的家人透露了她怀孕的消息。这反过来又导致各种文章和营销博客引用这一事件,作为避免 “网络恐怖”的建议的一部分。

Target 公司的市场营销部门希望识别出怀孕的人,因为在人生的某些时期,人们最有可能彻底改变自己的购买习惯,怀孕就是其中之一。如果 Target 能在这个时期接触到顾客,就可以培养这些顾客的新行为,让他们到 Target 购买日用品、服装或其他商品。

与所有其他大型零售商一样,Target 一直在通过购物代码、信用卡、调查等方式收集顾客数据。它将这些数据与人口统计数据和购买的第三方数据进行了整合。Target 的分析团队通过对所有数据的分析,确定了 Target 销售的约 25 种产品可以通过综合分析得出 “怀孕预测 ”分数。市场营销部门就可以针对高分顾客提供优惠券和营销信息。

进一步的研究表明,研究客户的生育状况可能会让一些客户感到毛骨悚然。据《泰晤士报》报道,该公司并没有放弃有针对性的营销,但确实开始将他们知道孕妇不会购买的东西的广告混合在一起以便让客户感觉广告组合并非有意而为,比如在尿布广告旁插入割草机广告。

  图片使用申明:原创文章图片源自‘Canva可画’平台免费版权图片素材;引用文章源自引用平台文章中所使用的原图。