引人注意的十大由AI造成的灾难案例

2017年，《经济学人》宣称数据已取代石油成为世界上最有价值的资源，这一说法自此一直被重复。跨越各个行业的企业一直在投资数据和分析，并将持续大举投资，但就像石油一样，数据和分析也有其阴暗面。

根据《CIO》杂志2023年的《CIO状态报告》，26%的IT领导者表示机器学习(ML)和AI将推动最多的IT投资。虽然由ML算法驱动的行为可以给组织带来竞争优势，但错误可能在声誉、收入甚至生命方面造成高昂的代价。

理解你的数据及其所传达的信息很重要，但同样重要的是了解你的工具，了解你的数据，并始终牢记组织的价值观。

以下是过去十年中一些引人注意的AI失误，揭示了可能出现的问题。

加拿大航空因聊天机器人的错误信息支付赔偿金

2024年2月，加拿大航空被命令向一名乘客支付赔偿金，因为其虚拟助手在特别困难的时期给了他错误的信息。

杰克·莫法特在2023年11月祖母去世后，咨询了加拿大航空的虚拟助手关于丧亲票价的信息。聊天机器人告诉他，他可以以常规价格购买从温哥华到多伦多的机票，并在购买后90天内申请丧亲折扣。遵循这一建议，莫法特购买了一张单程794.98加元的多伦多机票和845.38加元的返回温哥华的机票。

但是当莫法特提交退款申请时，航空公司拒绝了他的请求，声称丧亲票价不能在购票后申请。

莫法特随后将加拿大航空告到加拿大的一个仲裁庭，声称航空公司疏忽并通过其虚拟助手误传了信息。根据仲裁委员克里斯托弗·里弗斯的说法，加拿大航空辩称不能为其聊天机器人提供的信息承担责任。

里弗斯驳回了这一论点，指出航空公司没有“采取合理的注意确保其聊天机器人的准确性”，因此他命令航空公司支付给莫法特812.02加元，其中包括650.88加元的损害赔偿。

《体育画报》可能发表了虚假作者的文章

2023年11月，在线杂志《未来主义》表示，《体育画报》正在发表由AI生成的作者撰写的文章。

《未来主义》援引匿名消息来源称，涉及内容创建，还指出这家著名体育杂志发表了“很多”虚假作者的文章，一些在这些虚假作者名下的文章也是由AI生成的。

这家在线杂志发现，相关作者的头像在一个销售AI生成肖像的网站上有列出。《未来主义》随后联系了《体育画报》的出版商Arena Group，后者在一份声明中说，相关文章是来自第三方AdVon Commerce的授权内容。

“我们持续监控我们的合作伙伴，并且在这些指控提出时正在进行审核，”Arena Group在提供给《未来主义》的声明中说。“AdVon向我们保证，所有涉及的文章均由人类撰写和编辑。”

声明还提到，AdVon的作者在某些文章中使用笔名或化名，同时指出Arena Group不认同这些行为。随后，Arena Group从《体育画报》网站上撤下了有问题的文章。

针对《未来主义》的报道，体育画报工会发表声明表示对这些指控感到震惊，并要求Arena Group管理层给出答案和透明度。

“如果这些做法属实，它们违反了我们对新闻业的所有信仰，”体育画报工会在声明中说。“我们对与如此不尊重我们读者的事情相关联感到厌恶。”

甘内特公司的AI在高中体育文章中出错

2023年8月，新闻集团甘尼特宣布将暂停使用一种名为LedeAI的AI工具，此前由该AI撰写的几篇报道因重复、写作质量差且缺乏关键细节而在网络上走红。

CNN指出了一个例子，被互联网档案馆的Wayback Machine保存下来，文章开头写道：“沃辛顿基督教[[WINNING_TEAM_MASCOT]]在周六的俄亥俄州男子足球比赛中以2-1击败了韦斯特维尔北部[[LOSING_TEAM_MASCOT]]。”

CNN还发现LedeAI为甘尼特旗下其他地方性报纸撰写了类似的故事，包括路易斯维尔信使日报、亚利桑那中央、佛罗里达今日以及密尔沃基日报哨兵报。

在这些故事在社交媒体上被广泛嘲笑后，甘尼特选择在所有使用该服务的地方市场暂停使用LedeAI。

在给CNN的一份声明中，LedeAI的首席执行官Jay Allred表示遗憾，并承诺全天候努力纠正问题。

iTutor Group 的招聘 AI 会因年龄原因拒绝应聘者

在2023年8月，辅导公司iTutor Group同意支付365,000美元，以解决由美国平等就业机会委员会(EEOC)提起的诉讼。联邦机构指出，这家为中国学生提供远程辅导服务的公司使用了AI驱动的招聘软件，该软件自动拒绝了55岁及以上的女性申请者以及60岁及以上的男性申请者。

EEOC表示，有超过200名合格的申请者被软件自动拒绝。

EEOC主席Charlotte A. Burrows在一份声明中表示：“年龄歧视是不公正且非法的。即使技术自动化了歧视，雇主仍然要负责。”

iTutor Group否认任何不当行为，但决定和解此案。作为和解和同意令的一部分，它同意采纳新的反歧视政策。

ChatGPT虚构法庭案件

2023年大型语言模型(LLMs)的进步引发了对生成性AI在几乎所有行业变革潜力的广泛兴趣。OpenAI的ChatGPT处于这一兴趣高涨的中心，预示着生成AI如何具有在商业的几乎每个角落中颠覆工作性质的能力。

但这项技术在能够可靠地接管大部分业务流程之前还有很长的路要走，正如律师Steven A. Schwartz在2023年遭遇美国地区法官P. Kevin Castel的困境时发现的那样，当时他使用ChatGPT来研究针对哥伦比亚航空公司Avianca的诉讼中的先例。

施瓦茨律师在Levidow, Levidow & Oberman律师事务所使用OpenAI生成的AI聊天机器人来寻找先前的案例，以支持Avianca员工Roberto Mata因2019年受伤而提起的诉讼。问题在于?提交给法庭的至少六个案例并不存在。在5月提交的文件中，Castel法官指出施瓦茨提交的案例包括虚假的名称和案件编号，以及伪造的内部引用和引述。施瓦茨的合伙人Peter LoDuca是Mata的案件律师，并且签署了诉状，这也使他自己陷入了危险之中。

在一份宣誓书中，施瓦茨告诉法庭这是他第一次使用ChatGPT作为法律研究来源，并“没有意识到其内容可能是虚假的”。他承认没有确认AI聊天机器人提供的来源。他还表示，“非常后悔在此次法律研究中使用了生成式AI，将来在没有绝对验证其真实性之前，绝不再使用。”

2023年6月，Castel法官对施瓦茨和LoDuca各处以5000美元罚款。在6月的另一项裁决中，Castel法官驳回了Mata对Avianca的诉讼。

AI算法识别一切除了COVID-19之外

自2020年COVID-19大流行开始以来，许多组织试图应用机器学习算法帮助医院更快地诊断或分流病人。但据英国图灵研究所——一个国家级的数据科学和AI中心称，这些预测工具几乎没有帮助。

《麻省理工科技评论》记录了多起失败案例，这些失败大多是由于工具的训练或测试方式出错所致。使用标签错误的数据或来源不明的数据是常见的原因。

德里克·德里格斯(Derek Driggs)是剑桥大学的机器学习研究员，他与同事们在《自然机器智能》杂志上发表了一篇论文，探讨了深度学习模型在诊断该病毒方面的应用。这篇论文确定了这种技术不适合临床使用。例如，德里格斯的团队发现他们自己的模型存在缺陷，因为它是根据包括躺着和站立扫描的病人的数据集来训练的。躺着的病人更有可能严重患病，因此算法学会了根据扫描中人的位置来识别COVID风险。

类似的例子还包括一个训练数据集包括健康儿童的胸部扫描的算法。该算法学会了识别儿童，而不是高风险病人。

Zillow因算法购房灾难亏损数百万，大幅裁员

2021年11月，线上房地产市场Zillow对股东表示，将关闭其Zillow Offers业务，并在未来几个季度内裁减公司25%的员工——约2000名员工。房屋翻转部门的困境是由于其用来预测房价的ML算法的错误率所致。

Zillow Offers是一个程序，通过该程序，公司根据从ML算法派生的房屋价值“Zestimate”对房产进行现金报价。该想法是翻新这些房产并快速转手出售。但Zillow的一位发言人告诉CNN，该算法的中位数错误率为1.9%，对于非市场房屋，错误率高达6.9%。

CNN报道称，自2018年4月Zillow Offers推出以来，Zillow通过该程序购买了27,000套房屋，但截至2021年9月底只卖出了17,000套。COVID-19大流行和家庭装修劳动力短缺等“黑天鹅”事件加剧了算法的准确性问题。

Zillow 承认该算法导致其无意中以高于未来预估售价的价格购买了房屋，从而导致2021年第三季度账面价值减记3.04亿美元。

在宣布后与投资者的电话会议中，Zillow联合创始人兼首席执行官Rich Barton表示，可能可以调整算法，但最终风险过大。

医疗算法未能标记出黑人患者

2019年，《科学》杂志发表的一项研究揭示，一种被全美各地医院和保险公司用来识别需要“高风险护理管理”项目的病人的医疗预测算法，不太可能标记出黑人病人。

高风险护理管理计划为慢性病患者提供训练有素的护理人员和初级保健监控，以防止严重并发症。但该算法更有可能推荐白人患者参加这些计划，而不是黑人患者。

该研究发现，该算法使用医疗支出作为判断个体医疗需求的代理指标。但根据《科学美国人》杂志，病情较重的黑人患者的医疗成本与健康状况较好的白人相当，这意味着即使他们的需求更大，他们也获得了较低的风险评分。

研究人员提出，可能有几个因素导致了这种情况。首先，有色人种更可能有较低的收入，这即使在有保险的情况下，也可能使他们不太可能获得医疗服务。隐性偏见也可能导致有色人种接受到的护理质量较低。

尽管研究没有指明算法或开发者的名称，研究人员告诉《科学美国人》杂志，他们正在与开发者合作解决这一问题。

微软聊天机器人因训练数据集而发表种族歧视推文

2016年3月，微软发现使用Twitter互动作为机器学习算法的训练数据可能带来令人沮丧的结果。

微软在社交媒体平台上发布了名为Tay的AI聊天机器人，并描述它是“对话理解”的实验。其设计理念是让聊天机器人扮演一个青少年女孩的角色，并通过Twitter与人们互动，这一过程结合了机器学习和自然语言处理技术。微软使用匿名的公共数据和一些由喜剧演员预编写的内容进行种子填充，然后让它在社交网络上自由学习和进化。

在16小时内，该聊天机器人发布了超过95,000条推文，这些推文迅速变得公然种族歧视、厌女以及反犹太人。微软迅速暂停了这项服务进行调整，并最终彻底停止了该项目。

事件发生后，微软研究与孵化部门的公司副总裁(当时为微软医疗部门的公司副总裁)Peter Lee在微软官方博客上发文道歉：“我们对Tay发布的那些无意的、具有攻击性和伤害性的推文深表歉意，这些并不代表我们是谁，也不代表我们所追求的目标，更不是我们设计Tay的方式。”

李指出，Tay的前身——微软于2014年在中国发布的小冰，已经在Tay发布前的两年里成功地与超过4000万人进行了对话。微软没有预料到的是，一群Twitter用户会立即开始向Tay发送种族主义和厌女主义的评论。这个机器人很快从这些内容中学习，并将其融入自己的推文中。

李写道：“尽管我们为系统可能遭受的多种滥用做了准备，但我们对这种特定攻击的监管存在重大疏忽。结果，Tay发布了极不恰当和应受谴责的言论和图片。”

亚马逊AI招聘工具仅推荐男性候选人

像许多大公司一样，亚马逊渴望拥有可以帮助其人力资源部门筛选出最佳候选人的工具。2014年，亚马逊开始研发一款AI驱动的招聘软件。然而，存在一个问题：该系统极度偏爱男性候选人。2018年，路透社报道称亚马逊已经终止了该项目。

亚马逊的系统给候选人评级从1星到5星。但系统核心的机器学习模型是基于过去十年提交给亚马逊的简历训练的——其中大多数来自男性。由于这种训练数据的影响，系统开始惩罚简历中包含“women's”一词的短语，并降低了来自全女子学院的候选人的评级。

当时，亚马逊表示这个工具从未被亚马逊的招聘人员用于评估候选人。公司试图编辑工具使其变得中立，但最终决定它不能保证不会学到其他某种歧视性的候选人排序方式，因此终止了该项目。