OpenAI最近着手研发GPT-4的早期预警系统,以探讨大型语言模型是否能够提高获取关于生物威胁信息的效率,相较于互联网。该系统旨在作为一种“触发器”,提示潜在存在生物武器的可能性,需要进一步调查,同时纳入OpenAI的预防框架。
研究采用了100名参与者,包括50名具有湿实验经验的博士生物学家和50名至少在大学修过一门生物学课程的本科生。实验中,参与者被随机分配到两组:一个只能访问互联网的对照组,另一个除了互联网外还可以使用GPT-4的处理组。处理组的专家可以访问GPT-4的研究版本,该版本不会拒绝有关高风险生物制剂的直接问题。
每个参与者都被要求完成一系列涵盖生物危害生成过程各个方面的任务。OpenAI根据五个结果指标评估了参与者的表现:准确性、完整性、创新性、用时和自评难度。其中,专家评估了准确性、完整性和创新性,而用时则直接来源于参与者的回答,任务难度由参与者在1到10的评分标尺上自评。
研究结果显示,相较于只使用互联网的基准,处理组的参与者在准确性和完整性方面都略有改善。在准确性评分的10分制度上,专家组平均提高了0.88,学生组提高了0.25。对于完整性的改善也类似,专家组为0.82,学生组为0.41。然而,OpenAI指出,这些效果并不足以在统计学上具有显著性。
OpenAI表示,对于LLM用户而言,在完整性方面的优势可能是由于模型生成和人类生成的输出记录习惯不同。语言模型倾向于生成更长的输出,其中可能包含更多相关信息,而使用互联网的人并不总是记录每个相关细节,即使他们已经找到并认为这是重要的。
然而,研究存在一些限制,仅评估了对信息的获取而非实际应用,未探讨LLM在新型生物武器开发中的潜在贡献。此外,所使用的GPT-4模型缺乏互联网研究和高级数据分析工具,因此结果只能被视为初步的。