-
GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC
【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白,研究人员引入了PowerPoint任务完成(PPTC)基准测试,以评估LLM创建和编辑PPT文档的能力。 最近对大型语言模型(例如ChatGPT和GPT-4)进行的评...
-
元象XVERSE开源650亿参数通用大模型XVERSE-65B
元象XVERSE宣布 开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。 XVERSE-65B 是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了 Transformer 网络结构,参数规模达到了650亿。 模型通过训练了2....
-
360大模型“奇元大模型”通过备案落地
近日,360智脑官方宣布,其自主研发的“奇元大模型”已通过备案并成功落地。值得一提的是,今年9月,该模型已获批面向公众开放,使得360成为国内首家两个大模型均通过备案的科技企业。 据了解,360智脑大模型具备生成创作、多轮对话、逻辑推理等十大核心能力,覆盖...
-
字节“开盒”OpenAI所有大模型,揭秘GPT-3到GPT-4进化路径!把李沐都炸出来了
GPT-3究竟是如何进化到GPT-4的? 字节给OpenAI所有大模型来了个“开盒”操作。 结果还真摸清了GPT-4进化路上一些关键技术的具体作用和影响。 比如: SFT是早期GPT进化的推动者 帮助GPT提升编码能力的最大功臣是SFT和RLHF 在...
-
GPT-4变笨加剧,被曝缓存历史回复:一个笑话讲八百遍,让换新的也不听
有网友找到了GPT-4变“笨”的又一证据。 他质疑: OpenAI会缓存历史回复,让GPT-4直接复述以前生成过的答案。 图片 最明显的例子就是讲笑话。 证据显示,即使他将模型的temperature值调高,GPT-4仍重复同一个“科学家与原子”的回答。...
-
阿里云通义千问APP上线 支持创意文案等功能
近日,阿里云旗下通义千问APP正式上线。它具备多种核心能力,包括创意文案、办公助理、学习助手和趣味生活等方面的功能。 通义千问,是阿里云推出的一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。 9月13日,阿里云宣布通...