-
给大模型评分的基准靠谱吗?Anthropic来了次大评估
现阶段,大多数围绕人工智能 (AI)对社会影响的讨论可归结为 AI 系统的某些属性,例如真实性、公平性、滥用的可能性等。但现在面临的问题是,许多研究人员并没有完全意识到建立稳健可靠的模型评估是多么困难。当今许多现有的评估套件在各个方面的表现都很有限。 A...
-
Nuscenes最新SOTA | DynamicBEV超越PETRv2/BEVDepth!
1. 论文信息 2. 引言 这篇论文介绍了一种新的3D object detection方法,这对于自动驾驶、机器人技术和监控等应用至关重要。传统的3D object detection方法使用鸟瞰视角(BEV)方法,将3D场景简化为2D表示。然而,常...
-
AI玩推理桌游一眼识破骗局!清华通院联合推出心智理论新框架,六个指标评估表现均明显优于思维链
清华自动化系团队联合北京通用人工智能研究院,让几个AI智能体玩起了桌游! 游戏名叫阿瓦隆,是一个策略性的社交推理游戏,玩家被隐秘地分为“正义”与“邪恶”两派,通过任务投票、互相猜测与欺骗来完成或阻止任务,最终确定胜负。 为了能让AI智能体成功识别并应...
-
世界模型和DriveGPT这类大模型到底能给自动驾驶带来什么?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 大模型今年爆火,很多领域上的应用如雨后春笋般涌现,很多优秀的工作出现,主要集中在数据生成和场景分析表述两部分,重点解决自动驾驶的长尾分布问题和场景识别。今天自动驾驶之心带大家梳理下自动驾驶行业上的大模...
-
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4发布以来,大型多模态模型 (LMM 引起了研究界越来越多的兴趣,许多工作致力于构建多模态...
-
评论能力强于GPT-4,上交开源13B评估大模型Auto-J
随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。 虽然模型的对齐至关重要,但目前的评估方法往往存在局限性,这也让开发者往往困惑:大模型对齐程度如何?这不仅制约了对齐技术的进一步发展,也引发了...