PBT集团表示，数据质量对训练ChatGPT至关重要

距离OpenAI向公众发布ChatGPT已经接近一年，其采纳率呈现了前所未有的飙升。截至2023年2月，据路透社报道，ChatGPT拥有大约1亿活跃用户。快进到9月，ChatGPT网站吸引了近15亿访问者，展示了该平台在当今数字领域中的巨大流行和重要作用。PBT集团首席技术官Willem Conradie回顾了这一过程，注意到ChatGPT在各个行业中的显著使用和采纳。

图源备注：图片由AI生成，图片授权服务商Midjourney

ChatGPT的崛起突显了一系列重要问题，从输出偏见、问题误解、答案不一致、缺乏同理心到安全问题不一而足。为了应对这些问题，负责任的AI的概念逐渐占据主导，强调在应用人工智能时重要的是公正、包容、安全、透明、可问责和道德的意图。特别是在处理虚假信息时，负责任的AI显得至关重要，因为ChatGPT可能提供不准确或过时的信息。

当然，ChatGPT的多功能性不仅限于公共使用，它在企业环境中也是一个强大的工具，能够增强客户服务查询、邮件起草、个人助理任务、关键词搜索以及演示文稿制作等各种业务流程。为了获得最佳性能，ChatGPT提供准确响应至关重要。这需要对数据进行培训，这些数据不仅要与公司相关，而且要准确且及时。

Conradie指出:“想象一下，ChatGPT被用于自动处理客户查询，以提高客户体验，通过提供个性化的回应。如果底层数据质量受损，ChatGPT可能提供不准确的回应，从错误的客户姓名到在公司移动应用程序上提供不正确的自助指导，这些不准确之处可能导致客户的沮丧，最终损害客户体验，使预期的积极结果化为泡影。”

解决这些数据质量问题至关重要。确保相关性是第一步，这要求用于模型训练的数据与ChatGPT操作的业务背景一致。时效性是另一个关键因素，因为过时的数据可能导致不准确的回应。数据还必须是完整的，确保数据集不包含缺失值、重复项或不相关的条目，因为这些也可能导致不准确的回应和行为。

此外，通过强化学习不断改进模型，将用户反馈纳入模型重新训练周期是至关重要的。这有助于ChatGPT以及对话型AI模型总体上从它们的交互中学习，适应并随时间提升其响应质量。

Conradie总结道:“本文强调的数据质量管理实践虽然不是详尽无遗，但作为一个实用的起点。这些不仅适用于ChatGPT，还适用于对话型AI和其他人工智能应用，如生成式人工智能。所有这些都强调了在AI技术领域数据质量的重要性。”