CIO指南：采用开源生成式AI需要注意的十件事

开源生成式AI模型是可以免费下载的、大规模使用而无需增加API调用成本的，并且可以在企业防火墙后面安全运行。但你不要放松警惕，风险仍然存在，有些风险不仅被放大了，而且针对生成式AI的新风险正在出现。

如今似乎任何人都可以制作AI模型，即使你没有训练数据或者编程能力，也可以采用你最喜欢的开源模型，对其进行调整，然后以新名称发布。

根据斯坦福大学今年4月发布的“AI Index Report”报告显示，2023年有149个基础模型发布，其中三分之二是开源的，并且还有数量惊人的变体。Hugging Face目前追踪到仅在文本生成方面就有超过80000个大型语言模型，所幸的是，它有一个排行榜，让你可以根据模型在各种基准上的得分情况快速对模型进行排序。这些模型虽然落后于大型商业模型，但正在迅速得到改进。

安永美洲公司的生成式AI负责人David Guarrera表示，在研究开源生成式AI时，排行榜是一个很好的起点，他表示，HuggingFace的基准测试尤其出色。

“但不要低估参与其中并使用这些模型的价值，因为这些模型是开源的，所以很容易做到这一点，也很容易将它们替换掉。”他说，开源模型与封闭的商业替代方案之间的性能差距正在缩小。

Uber Freight公司工程负责人Val Marchevsky表示：“开源非常棒，我发现开源非常有价值。”他说，开源模型不仅在性能上赶上了专有模型，而且有些模型提供了闭源模型无法比拟的透明度。一些开源模型可以让你看到什么用于推理，什么不用于推理，可审计性对于防止幻觉是很重要的。”

当然，还有价格上的优势。“如果你的数据中心恰好有容量，为什么还要花钱找别人呢？”他说。

企业已经非常熟悉使用开源代码了。根据Synopsys今年2月发布的开源安全和风险分析报告显示，有96%的商业代码库都包含开源组件。

有了这些经验，企业应该知道该怎么做才能确保他们使用的是经过适当许可的代码，如何检查漏洞，如何保持所有内容都已经修补并保持最新状态。不过，其中一些规则和最佳实践存在可能会被忽视的特殊细微差别，以下就是最主要的几条。

1、奇怪的新许可条款

不同开源许可证类型的情况非常复杂。一个项目用于商业用途是否安全，还是仅对于非商业实施是安全的？可以修改和分发吗？可以安全地合并到专有代码库中吗？如今，随着AI时代的到来，一些新的问题开始涌现。首先，有一些新的许可证类型仅在非常宽松的范围下开放源代码。

以Llama许可为例。Llama系列模型是目前最好的开源大型语言模型之一，但Meta官方将其描述为“定制的商业许可，平衡模型的开放访问与责任和保护，以帮助解决潜在的滥用问题”。

企业可以在商业用途中使用这些模型，也可以让开发者在Llama基本模型的基础上创建和分发额外的工作，但不允许他们使用Llama输出的内容来改进其他Llama，除非本身就是Llama衍生品。如果企业或其附属机构的每月用户数超过700人，那么他们必须申请Meta可能授予、也可能不授予的许可。如果他们使用Llama 3，则必须在显着位置添加“Built with Llama 3”。

同样地，Apple刚刚在“Apple示例代码许可”下发布了OpenELM，该许可也是为此而开发的，仅涵盖版权许可，而不包括专利权。

Apple和Meta都没有使用普遍接受的开源许可，但代码实际上是开放的。Apple公司实际上不仅发布了代码，还发布了模型权重、训练数据集、训练日志和预训练配置。这给我们带来了开源许可的另一个方面：传统的开源软件就是代码，事实上它是开源的，意味着你可以看到它的功能以及其中是否存在潜在的问题或漏洞。

然而，生成式AI不仅仅是代码，还包括了训练数据、模型权重和微调。所有这些对于理解模型的工作原理和识别潜在偏差都至关重要。例如，根据地平论训练的模型将无法回答科学问题，或者由朝鲜黑客微调的模型可能无法正确识别恶意软件。那么开源大型语言模型会发布所有这些信息吗？这要取决于型号，甚至取决于型号的具体版本，因为这是没有标准的。

卡内基梅隆大学AI教授、普华永道前全球AI负责人Anand Rao表示：“有时他们会提供代码，但如果没有进行微调，你可能会花很多钱才能获得相当的性能。”

2、技能短缺

开源通常是一种自己动手的工作。企业可以下载代码，但他们需要内部专业知识或聘请顾问才能使一切正常运行，这是生成式AI领域的一个大问题。没有人拥有多年的经验，因为这项技术太新了。Rao表示，如果一家企业刚刚开始使用生成式AI，或者想要快速发展，那么从专有平台开始会更安全。

他说：“下载开源版本需要专业知识。”但他补充道，一旦企业完成了概念验证，将模型部署到生产中，账单就开始堆积起来，那么可能是时候考虑开源的替代方案了。

缺乏行业专业知识也给开源AI领域带来了另一个问题。开源的主要优势之一是有很多人查看代码、发现编程错误、安全漏洞和其他弱点。但这种开源安全的“千眼”方法，只有在事实上有一千只眼睛能够理解他们所看到的内容时才是有效的。

3、“越狱”

众所周知，大型语言模型很容易受到“越狱”的影响，用户会给出巧妙的提示，诱骗它违反指导方针，例如生成恶意软件。对于商业项目，背后有积极主动的厂商，他们可以识别这些漏洞并在出现时将其关闭。此外，厂商还可以访问用户发送到模型公共版本的提示，以便他们可以监控可疑活动的迹象。

恶意行为者不太可能购买在私有环境中运行的企业版本产品，在私有环境中，提示不会共享给厂商以改进模型。而企业团队中可能没有专人负责寻找开源项目中的越狱迹象。不良行为者可以免费下载这些模型并在自己的环境中运行，以测试潜在的黑客行为。坏人在越狱方面也取得了先机，因为他们可以看到系统提示模型使用的信息，以及模型开发人员可能构建的任何其他护栏。

Rao说：“这不仅仅是要试错。”例如，攻击者可以分析训练数据，找出让模型错误识别图像的方法，或者在遇到看似无害的提示时偏离正轨。

如果AI模型在输出内容中添加水印，恶意行为者则可能会分析代码以对过程进行逆向工程，去除水印。攻击者还可以分析模型或其他支持代码和工具来查找漏洞区域。

全球数字化转型咨询公司Nortal的高级数据科学家和能力负责人Elena Sügis表示：“您可能会因为请求而使基础设施不堪重负，这样模型就不会出现这种情况。当模型是更大系统中的一个组成部分，并且其输出内容被系统的另一部分使用时，如果我们可以攻击模型输出内容的方式，就会破坏整个系统，这对企业来说可能是存在风险的。”

4、训练数据的风险

安永的Guarrera表示：“这是一个潜在的问题，没有人真正知道一些悬而未决的诉讼将如何展开。”他说，我们可能会迎来一个必须对数据集进行补偿的世界。“大型科技企业更有能力在这方面投入资金，并在版权可能带来的风暴中存活下来。”

Sügis表示，大型商业厂商不仅有钱用于购买培训数据和打官司，他们还有钱用于高质量的数据集。免费的公共数据集不仅仅包含未经许可使用的受版权保护的内容，还充满了不准确和有偏见的信息、恶意软件和其他可能降低输出质量的材料。

“很多模型开发者都在谈论使用精选数据，这比你用整个互联网来训练它要贵得多。”

5、新的攻击领域

生成式AI项目不仅仅是代码，还有更多的潜在领域。大型语言模型可能会在多个方面受到不良行为者的攻击。他们可能会渗透到管理不善的项目开发团队中，向软件本身添加恶意代码。但Sügis说，他们也可能毒害训练数据、微调或权重。

“黑客可能会使用恶意代码示例重新训练模型，从而侵入用户的基础设施，或者用假新闻和错误信息来训练它。”

另一个攻击媒介是模型的系统提示。

“这通常对用户是隐藏的，系统提示可能有护栏或安全规则，允许模型识别不需要或不道德的行为。”

她说，专有模型不会透露模型的系统提示，并且访问这些内容可能会让黑客弄清楚如何攻击模型。

6、缺少护栏

一些开源团体可能会从哲学上反对在他们的模型上设置护栏，或者他们可能认为模型在没有任何限制的情况下会表现得更好。有些则是专门为恶意目的而创建的。那些想要使用大型语言模型的企业可能不一定知道他们的模型属于哪一类。Nortal公司的Sügis表示，目前还没有独立机构评估开源AI模型的安全性。她表示，欧洲的《人工智能法案》将要求提供部分此类文件，但其大部分条款要到2026年才会生效。

“我会尝试获取尽可能多的文档，测试和评估模型，并在公司内部实施一些防护措施。”

7、缺乏标准

用户驱动的开源项目通常是基于标准的，因为企业用户更喜欢标准和互操作性。事实上，根据Linux基金会去年发布的一项针对近500名技术专业人士的调查显示，71%的人更喜欢开放标准，而只有10%的人更喜欢封闭标准。另一方面，生产专有软件的企业可能更愿意让客户锁定在他们的生态系统中。但如果你期望开源生成式AI都是基于标准的，那你就错了。

事实上，当大多数人谈论AI标准的时候，他们谈论的是道德、隐私和可解释性等问题。这方面有很多工作正在开展，例如去年12月发布的人工智能管理系统ISO/IEC 42001标准。4月29日，NIST发布了人工智能标准计划草案，其中涵盖了很多内容，首先是创建一种用于谈论AI的通用语言，还主要关注风险和治理问题，但在技术标准方面没有太多内容。

“这是一个令人难以置信的新兴领域，”云原生计算基金会首席信息官兼生态系统负责人Taylor Dolezal说。“我看到一些围绕数据分类的讨论，关于为训练数据、API和提示制定标准格式。”但到目前为止，这还只是讨论而已。

他说，矢量数据库已经有了一个通用的数据标准，但还没有标准的查询语言。那么自主代理的标准又是如何呢？

“我还没有看到，但我很想看到，找出一些方法，不仅让代理们可以执行他们的特定任务，而且还要将这些任务结合在一起。”

他说，创建代理最常用的工具LangChain与其说是一个标准，不如说是一个框架。他说，用户企业——即创造标准需求的公司——还没有准备好。“大多数最终用户在开始尝试之前都不知道自己想要什么。”

相反，他表示，人们更有可能将OpenAI等主要厂商的API和接口视为新的、事实上的标准。“这就是我看到的情况。”

8、缺乏透明度

你可能认为开源模型从定义上来说是更加透明的，但情况可能并非总是如此。分析引擎和记分牌平台Vero AI的首席执行官Eric Sydell表示，大型商业项目可能有更多的资源用于创建文档。Vero AI最近发布了一份报告，根据可见性、完整性、立法准备、透明度情况等方面对主要的生成式AI模型进行评分，谷歌的Gemini和OpenAI的GPT-4排名最高。

“仅仅因为它们是开源的，并不一定意味着它们提供了有关模型背景及其开发方式的相同信息，目前，更大型的商业模型在这方面做得更好。”

以偏见为例。

“我们发现排名中前两个封闭模型有相当多的文档，并投入了时间探索这个问题，”他说。

9、血统问题

开源项目有很多分支是很常见的，但当这种情况发生在AI时代时，你就会面临传统软件所没有的风险。网络安全厂商Sonatype的产品高级副总裁Tyler Warde举例说，一个基础模型使用了一个有问题的训练数据集，有人从中创建了一个新模型，那么新模型就会继承这些问题。

“这个模型会有很多黑匣子方面的内容，”他说。

事实上，这些问题可能会追溯到几个级别，并且不会在最终模型的代码中可见。当一家企业下载模型供自己使用时，模型就会进一步从原始来源中删除。最初的基本模型可能已经解决了问题，但是，根据透明度和上下游沟通的程度，开发最后一个模型的开发人员甚至可能不知道问题得到了修复。

10、新的影子IT

那些使用开源组件作为软件开发过程一部分的企业，拥有适当的流程来审查库并确保组件是最新的。他们确保项目得到良好的支持，安全问题得到处理，并且软件具有适当的许可条款。

然而，对于生成式AI，负责审查的人可能不知道要关注什么。最重要的是，生成式AI项目有时是不符合标准软件开发流程的，可能来自数据科学团队或臭鼬工厂。开发人员可能会下载模型来玩，最终得到更广泛的使用。或者，企业用户自己可能会遵循在线教程并设置自己的AI，完全绕过IT。

生成式AI的最新进展——自主代理，有可能将巨大的力量交给这些系统，将这种影子IT的潜在风险提高到一个新的高度上。

Corelight公司开源高级总监Kelley Misata表示：“如果您打算进行试验，请创建一个容器，以安全的方式进行试验。”她说，这应该属于公司风险管理团队的责任，而CIO应该确保开发人员和整个企业了解这个流程。

“他们是最有能力塑造文化的人，让我们充分利用开源提供的创新和所有伟大之处，但同时要睁大眼睛去探索。”

两全其美？

一些公司正在寻求开源的低成本、透明度、隐私和控制时，也希望有厂商提供治理、长期可持续性和支持。在传统的开源世界中，有很多厂商这样做，例如Red Hat、MariaDB、Docker、Automattic等。

“他们为大型企业提供一定程度的安全保障，”AArete公司数据科学和分析副总裁Priya Iragavarapu表示。“这几乎是降低风险的一种方式。”

她表示，在生成式AI领域，此类厂商并不多，但情况正在开始发生变化。