谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

谷歌研究团队在人工智能领域持续推动着对生成式AI（GenAI）安全的研究，以应对其在虚假信息、偏见和安全性方面带来的挑战。作为谷歌研究的一部分，负责构建负责任的AI和数据系统的Responsible AI and Human-Centered Technology(RAI-HCT)团队旨在通过文化感知研究的视角推进负责任的人本AI的理论和实践，以满足今天数十亿用户的需求，并为更好的AI未来铺平道路。

在RAI-HCT团队中，Building Responsible AI Data and Solutions（BRAIDS）团队专注于通过可扩展的工具、高质量数据、简化的流程以及创新研究简化RAI实践的采用，特别关注处理GenAI(生成式AI)带来的独特挑战。GenAI模型带来了前所未有的能力，推动了创新应用的迅速发展，然而，它同时也存在虚假信息、偏见和安全性的风险。

为了解决这些风险，谷歌在2018年制定了AI原则，强调有益使用和防范伤害。自那以后，谷歌通过全面的风险评估框架、内部治理结构、教育以及在AI产品生命周期内识别、衡量和分析伦理风险的工具和流程的开发，致力于有效实施这些原则。BRAIDS团队专注于最后一个方面，通过创建工具和技术，帮助谷歌团队识别GenAI产品中的伦理和安全风险，并采取适当的缓解措施。

GenAI的挑战在于其前所未有的能力伴随着一系列潜在的失败，迫切需要在模型广泛推出之前采取全面而系统的RAI方法来理解和减轻潜在的安全问题。对抗性测试是一种关键技术，通过系统地评估模型在提供恶意或无意中有害输入的情况下的行为，以了解潜在风险。

谷歌的研究侧重于三个方向:扩展的对抗性数据生成、自动化测试集评估和社区参与。为了创建测试集，BRAIDS团队采用了“人在回路中”的方法，以在不同情境下包含多样化且潜在不安全的模型输入。自动化测试集评估帮助快速评估模型在各种潜在有害情境下的响应，而社区参与则有助于发现“未知的未知”，并启动数据生成过程。

在安全性评估中，人类判断起着关键作用，但受到社区和文化的影响，难以自动化。为了解决这一问题，团队注重研究评估者的多样性。他们还通过引入基于大型语言模型（LLMs）的自动评估者，提高了评估的效率和规模，同时将复杂或模糊的案例交给专业评估者。

在社区参与方面，团队积极与Equitable AI Research Round Table（EARR）等组织合作，确保他们代表使用他们模型的多元社区。Adversarial Nibbler Challenge则邀请外部用户参与，了解不安全、偏见或暴力输出对最终用户的潜在危害。他们还通过参与研究社区的活动，如在亚太计算语言学协会会议(IJCNLP-AACL2023)的The ART of Safety研讨会中，与研究界合作解决GenAI的对抗性测试挑战。

在评估GenAI安全风险时，团队认识到这既是技术上的挑战，也是社会上的挑战。安全感知是固有主观的，受到多种交叉因素的影响。他们进行了关于评估者人口统计信息对安全感知的影响的深入研究，探讨了评估者的人口统计信息（如种族/种族、性别、年龄）和内容特征(如危害程度)对GenAI输出的安全评估的交叉影响。他们的研究框架揭示了不同背景的评估者之间的一系列分歧模式，为评估人类注释和模型评估的质量提供了新途径。

GenAI带来了技术变革，即使不需要编码也可以实现快速开发和定制。然而，这也伴随着产生有害输出的风险。谷歌的主动对抗性测试计划旨在识别和减轻GenAI风险，确保其模型行为包容。对抗性测试和红队行动是安全策略的重要组成部分，全面进行它们对应对快速创新的要求，不断挑战自己，与内部伙伴、多元用户社区以及其他行业专家合作，发现“未知的未知”。

​ 谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险