“守卫模型”让GenAI更安全

企业渴望部署生成式人工智能（GenAI）应用程序，但对有毒内容、敏感数据泄露和幻觉的担忧让他们犹豫不决。一个潜在的解决方案是在GenAI应用程序旁边部署“守卫模型”（guard models），可以立即检测和防止这种风险行为。这就是Datarobot所支持的方法，该公司近期在其人工智能（AI）平台上添加了新的人工智能可观察性功能，旨在防止大型语言模型(LLM)失控。

除了少数预先配置的守卫模型外，Datarobot AI平台设置了新的警报和通知策略，可视化解决问题和回溯答案的新方法，以及检查数据质量和主题漂移的新诊断能力，以及其他功能。

Datarobot首席技术官Michael Schmidt表示，这一切都是为了减轻客户对GenAI和LLM的担忧。

“到目前为止，我们从客户那里听到的最多的事情就是信心问题。”Schmidt说。“他们中的许多人都在构建生成式人工智能系统和聊天机器人，但实际上他们对将它们投入生产感到担心，因为他们不知道它们会如何表现。”

网络上到处都是聊天机器人的事故。2023年初，微软基于OpenAI ChatGPT的必应聊天模式威胁要破坏一名记者的婚姻，将这名记者比作希特勒，并幻想发布核密码。

除了担心聊天机器人会喷出有毒物质外，LLM还有一个持续存在的幻觉问题。LLM总是会编造一些东西，因为它们的设计方式不同，所以需要第三方介入并检测幻觉。此外，还有个人身份信息(PII)可能从LLM泄露的影响，更不用说人们与LLM共享PII了。

Datarobot拥有多年帮助公司构建、训练、部署和管理机器学习模型的经验。多年来，它一直处于预测分析领域前沿。当GenAI风潮来临时，该公司迅速将其业务重心转向处理新的语言模型，这些模型已被证明是如此有前途，但也令人烦恼。

“信心问题是我们的首要关注点。”Schmidt继续说道。“去找大公司谈谈。是什么阻止他们将更多的GenAI应用程序投入生产?你会得到一些与“我不喜欢它的质量”或“我们需要提高它的质量”或“我不相信它”或“我不知道它在不同情况下的表现如何”……”

Datarobot在其平台中引入的新防护模型为客户提供了一种解决一些最紧迫问题的方法。凭借其生成式人工智能防护库，该公司现在提供预先构建的守卫模型，可以及时检测毒性，可以检测PII，还可以减轻幻觉。客户也可以建立自己的守卫模型。

一些预配置的守卫模型会持续扫描用户输入，以防止PII被发送到LLM。其他模型可以防止LLM的不适当输出到达最终用户面前，包括有毒内容，甚至与竞争对手进行比较。Schmidt表示，当与Datarobot AI平台的其他新功能一起部署时，这些模型可以作为LLM和整个GenAI应用程序的端到端护栏。

他说:“我们还增加了一项能力，不仅可以对单一模型和管道进行测量和评估，还可以对组合在一起的护栏进行评估。”

Datarobot还可以生成测试脚本和测试提示，以确定LLM是否正常工作。如果客户使用矢量数据库来存储在推理时输入LLM的数据，Datarobot也可以使用它。

这个版本还带来了新的反馈机制，允许组织改进他们的GenAI应用程序。如果对GenAI模型的更改为客户带来了负面体验，则会报告该反馈。然后，该平台可以预测其他类似的变化何时会产生相同类型的负面结果。

Schmidt说，这是Datarobot在跟踪模型性能方面的传统之一。

“你的模特表现如何？你现在可以用它来评估你的人工智能系统。”他说，“因此，如果现在对提示进行编辑，可以立即看到该提示的接受率，估计接受率度量或估计反馈度量。或者你可能更新了矢量数据库，或者你换成了Llama 3，换成了GPT 3.5，或者你做了一些类似的切换，现在你都可以实际测量效果是什么。”

虽然经典的机器学习方法和预测性人工智能仍然是Datarobot的重要应用领域，但大多数新前景都在寻求实现LLM和构建GenAI应用程序。Schmidt表示，Datarobot能够在很大程度上利用其为预测性人工智能构建的平台，用于新的GenAI用例。