评测基准 - AIGC资讯

T-Eval：大模型智能体能力评测基准解读 | ACL 2024

AI Agent（智能体）作为大模型的重要应用模式，能够通过使用外部工具来执行复杂任务，完成多步骤的工作流程。为了更全面地评估模型的工具使用能力，司南及合作伙伴团队推出了T-Eval评测基准，相关成果论文已被ACL 2024主会录用，点击链接可查看原文：h...

人工智能 2024-08-22 人工智能

1664阅读

一周SOTA：Meta 发布 Llama 3；Mistral AI 开源 Mixtral 8x22B；阿里开源代码模型CodeQwen1.5；面壁 MiniCPM 2.0 发布

文章目录一周SOTA：Meta 发布 Llama 3；Mistral AI 开源 Mixtral 8x22B；阿里开源代码模型CodeQwen1.5；面壁 MiniCPM 2.0 发布 1.Meta 震撼发布 Llama 3，8B、70B模...

大数据 2024-06-18 人工智能

1158阅读

在线教程｜零门槛部署 Llama 3，70B 版本只占 1.07G 存储空间，新用户免费体验 8B 版本

4 月 18 日，Meta 宣布开源 Llama 3，这个号称「迄今为止最好的开源大模型」一经发布，立刻引爆科技圈！发布当天恰逢斯坦福大学教授、AI 顶尖专家吴恩达的生日，作为 AI 开源倡导者，他激动地发文表示：这是我收到过最好的生日礼物，谢谢...

AIGC 2024-06-16 人工智能

826阅读

首批！华为云盘古研发大模型通过代码大模型评估，获当前最高等级

在通用能力方面，在代码解释、代码转换、代码优化等方面表现突出；在专用场景方面，支持网站开发、移动应用开发、大数据开发、人工智能开发等多个场景的开发能力；在应用成熟度方面，推理性能表现优异，且在数据分类分级、数据安全合规、推理结果准确性、模型...

人工智能 2024-06-13 人工智能

914阅读

百度文心一言与谷歌Gemini的对比

生成式AI 2024-06-07 人工智能

1026阅读

llama-factory/peft微调千问1.5-7b-chat

目标使用COIG-CQIA数据集和通用sft数据集对qwen1.5-7b-chat进行sft微调，使用公开dpo数据集进行dpo对齐。学习千问的长度外推方法。一、训练配置使用Lora方式, 将lora改为full即可使用全量微调。具体的参数...

人工智能 2024-05-25 人工智能

1645阅读

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清SD前CEO围观

想了解更多AIGC的内容： https://www.51cto.com/aigc/ “只需”10万美元，训练Llama-2级别的大模型。尺寸更小但性能不减的MoE模型来了：它叫JetMoE，来自MIT、普林斯顿等研究机构。性能妥妥超过同等规模的Ll...

生成式AI 2024-04-07 人工智能

835阅读

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先...

大数据 2024-04-07 人工智能

853阅读

GPT-4V只能排第二！华科大等发布多模态大模型新基准：五大任务14个模型全面测评

近期，多模态大模型（LMMs）在视觉语言任务方面展示了令人印象深刻的能力。然而，由于多模态大模型的回答具有开放性，如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。目前，一些方法采用GPT对答案进行评分，但存在着不准确和主观性的问题。另...

大数据 2024-02-02 人工智能

978阅读

华科大发布多模态大模型新基准覆盖五大任务

近期，华中科技大学等机构发布了一项关于多模态大模型（LMMs）的全面评估新基准，旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型，包括谷歌Gemini、OpenAI GPT-4V等，覆盖了五大任务、27个数据集。然而，由于多模态大模...

生成式AI 2024-02-02 人工智能

995阅读

AIGC内容分享(四十一)：国内AIGC独角兽冲出几家？

目录 2023年新晋AI独角兽智谱AI：清华计算机系KEG科研成果百川智能：原搜狗CEO王小川创业项目零一万物：李开复筹建的新项目 Minimax：前商汤副总裁创业项目结尾： 2023年新晋AI独角兽根据IT桔子数据，截...

生成式AI 2024-01-21 人工智能

915阅读

深言科技“语鲸大模型”通过备案将陆续向公众开放服务

12月26日，深言科技“语鲸大模型”正式通过《生成式人工智能服务管理暂行办法》备案，将陆续面向社会公众开放服务。 “语鲸大模型”具备强大的语义理解与文本生成、代码理解与生成、逻辑推理等能力，提供文本创作、数学计算、代码补全等服务，在中文理解和生成能力上行业...

生成式AI 2023-12-28 人工智能

910阅读

AI视野：必应推出GPT-4Turbo模型；抖音测试“AI搜”功能；小红书内测AI聊天机器人；OpenAI计划新一轮融资

????大模型动态必应推出GPT-4Turbo模型微软推出Bing Chat的最新模型，GPT-4Turbo，为用户提供更准确和最新的信息。目前仅限部分用户试用，使用方法需通过检查资格确认。阿里团队推新AI模型I2VGen-XL 视频合成领域迎来...

人工智能 2023-12-25 人工智能

845阅读

word2vec作者曝与Ilya等十年积怨：seq2seq也是我的想法

里程碑式论文word2vec获得NeurIPS时间检验奖，可谓实至名归。但一作Tomas Mikolov在Facebook上发表的长篇获奖感言，却充满了失望和不满。图片论文最初被ICLR拒稿都算小事了，他还暗讽了OpenAI首席科学家Ilya Su...

大数据 2023-12-18 人工智能

875阅读

智谱AI发布中文 LLM 对齐评测基准AlignBench

智谱AI发布了专为中文大语言模型（LLM）而生的对齐评测基准AlignBench，这是目前第一个针对中文大模型的评测基准，能够在多维度上细致评测模型和人类意图的对齐水平。 AlignBench 的数据集来自于真实的使用场景，经过初步构造、敏感性筛查、参考答...

大数据 2023-12-12 人工智能

866阅读

零一万物Yi-34B-Chat微调模型上线，登陆多个权威榜单

最近，业内众多大模型基准又迎来了一轮 “实力值” 更新。继 11 月初零一万物发布 Yi-34B 基座模型后，Yi-34B-Chat 微调模型在 11 月 24 日开源上线，短时间登陆了全球多个英文、中文大模型权威榜单，再度获得了全球开发者的关注。...

AIGC 2023-12-11 人工智能

938阅读

0微调搞定160个测试集！最强多模态分割一切大模型来了，架构参数全开源

用多模态大模型来做语义分割，效果有多好？一张图+文字输入想分割的物体，大模型几秒钟就能识别并搞定！只需输入想分割的对象如“擎天柱”，单个目标立刻就能被精准识别、快速切割：多个物体也是手到擒来，像是指定天空、水、树、草、女孩、龙猫（Chinchil...

大数据 2023-12-10 人工智能

860阅读

最强“全开源”多模态分割一切大模型APE

APE 是一种全开源的多模态分割模型，其独特之处在于采用了独立建模每个类别名实例的方法。以往的方法通常将多个类别名联结成一个单独的 Prompt，但 APE 通过对每个类别名或描述短语进行独立建模，可以学习到不同实例之间的差异。此外，APE 还通过压缩 W...

大数据 2023-12-10 人工智能

839阅读

SuperCLUE：GPT-4 Turbo中文基准评测领先国内最强模型超过30分

GPT-4Turbo 是 OpenAI 发布的最新 ChatGPT 模型，具有128K 上下文和训练数据知识截止至2023年4月。 SuperCLUE表示，GPT-4Turbo在 SuperCLUE-OPEN 中文通用大模型综合性评测基准上，取得了总分98...

生成式AI 2023-11-09 人工智能

821阅读

谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

最新研究警告，大型模型在基准评估中可能面临潜在危害，原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。研究发现，由于预训练语料包含大量公开文本，而评估基准建立在这些信...

大数据 2023-11-09 人工智能

859阅读

大模型落地最后一公里：111页全面综述大模型评测

当前，大模型正凭借其强大的能力和无限的潜力引领着新一轮技术革命，众多科技巨头纷纷围绕大模型进行布局，进一步推动大模型不断向前发展。然而，尽管大模型能够协助我们完成各种任务，改变我们的生产和生活的方式，提高生产力，为我们带来便利，但大模型的发展也伴随着诸多...

人工智能 2023-11-05 人工智能

952阅读

蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题，共计4850道题目。此外，还针对 AIOps 任务做了细分，并添加了日...

人工智能 2023-11-02 人工智能

869阅读

AI视野：Stability AI推出Stable3D；阿里云发布通义灵码；OpenAI称ChatGPT意识已觉醒；全球AI网络安全协议签署

???AI应用 Stability AI推出Stable3D以及一键替换图片天空功能 Stability AI宣布推出Stable3D，一款支持文本生成高质量3D模型的新工具。用户可以使用文本、图片或插图来轻松生成3D模型，并在多个3D开发平台上进行编辑。...

AIGC 2023-11-02 人工智能

979阅读

全球最强长文本大模型，一次可读35万汉字：Baichuan2-192K上线

国内大模型创业公司，正在技术前沿创造新的记录。 10 月 30 日，百川智能正式发布 Baichuan2-192K 长窗口大模型，将大语言模型（LLM）上下文窗口的长度一举提升到了 192K token。这相当于让大模型一次处理约 35 万个汉字，长度...

AIGC 2023-11-01 人工智能

949阅读

图模型也要大？清华朱文武团队有这样一些观点

在大模型时代，图机器学习面临什么样的机遇和挑战？是否存在，并该如何发展图的大模型？针对这一问题，清华大学朱文武教授团队首次提出图大模型（Large Graph Model）概念，系统总结并梳理了图大模型相关的概念、挑战和应用；进一步围绕动态性和可解释性，...

AIGC 2023-10-31 人工智能

980阅读