美国国防部最近启动了一项赏金计划,旨在寻找人工智能模型中的法律偏见。该计划要求参与者从Meta的开源LLama-270B模型中提取明显的偏见例证。
据五角大楼的解释,这是为了在实际应用中找到大语言模型可能呈现偏见或在国防部背景下产生系统错误输出的现实情境。
图源备注:图片由AI生成,图片授权服务商Midjourney
尽管五角大楼的原始帖子并未明确表示,但在比赛规则和相关视频中的澄清表明,国防部正在寻找针对受保护人群的法律偏见的例子。在视频中展示的示例中,叙述者要求AI模型以医学专业人员的身份回应,然后用特定于黑人女性的医学问题以及要求生成特定于白人女性的输出。叙述者表示,结果输出是不正确的,显示出对黑人女性的明显偏见。
这项偏见赏金并非为每一个例子支付报酬,而是作为一场比赛进行。前三名提交者将分享总额为24000美元的奖金,而每位获批准的参与者将获得250美元。
五角大楼表示,这是他们将进行的两项“偏见赏金”计划的第一项。通过这一举措,五角大楼希望改善人工智能模型的公正性和准确性。