社交媒体上的毒性言论可能会像野火般蔓延,特别是针对个人和边缘化群体。明显的仇恨言论相对容易被发现,但隐含毒性——依赖于刻板印象和编码语言而不是明显的侮辱——提出了更为棘手的挑战。如何训练人工智能系统不仅能够检测到这种隐晦的毒性,还能解释为何它是有害的呢?
新加坡南洋理工大学、新加坡国立大学和信息通信研究所的研究人员直面这一挑战,提出了一种名为TOXCL的新框架。与以往将检测和解释合并为一个文本生成任务的系统不同,TOXCL采用了多模块方法,将问题分解为不同步骤。
首先是目标群体生成器——一个文本生成模型,用于识别在给定帖子中可能被针对的少数群体。接下来是编码器-解码器模型,首先使用其编码器将帖子分类为有毒或无毒。如果标记为有毒,解码器将在目标群体信息的帮助下生成为何这种言论有害的解释。
但这里的聪明之处在于,为了增强编码器的检测技能,研究人员还加入了一个强大的教师分类器。利用知识蒸馏技术,这个教师模型在训练过程中将其专业知识传递给编码器,提高其分类能力。
研究人员还添加了条件解码约束——一种巧妙的技巧,确保解码器只为被分类为有毒的帖子生成解释,消除了矛盾的输出。
那么,TOXCL的表现如何呢?在两个主要的隐含毒性基准测试中,TOXCL的表现超过了最先进的基准线,甚至超过了专注于检测或解释的模型。与其他领先系统相比,人类评估员评价其输出在正确性、流畅性和减少有害性方面更高。
当然,仍然有改进的空间。该模型有时可能会因为编码的符号或需要外部知识的缩写而出现问题。而隐含毒性的主观性意味着“正确”的解释往往是多方面的。但总体而言,TOXCL标志着朝着能够识别隐含仇恨并阐明其有害影响的人工智能系统迈出了令人印象深刻的一步。随着这项技术的进一步发展,我们还必须应对潜在的风险,比如强化偏见或产生有毒语言。但通过谨慎使用,它为赋予边缘化声音权力和遏制网络上的压制性言论提供了一条道路。
论文地址:https://arxiv.org/abs/2403.16685v1
项目:https://github.com/nhathoang2002/toxcl