评估指标第2页 - AIGC资讯

一文读懂 Arthur Bench LLM 评估框架

Hello folks，我是 Luga，今天我们来聊一下人工智能(AI 生态领域相关的技术 - LLM 评估。众所周知，LLM 评估是人工智能领域的一个重要议题。随着 LLM 在各个场景中的广泛应用,评估它们的能力和局限性变得越来越重要。作为一款新兴...

生成式AI 2024-05-27 人工智能

448阅读

七个很酷的GenAI & LLM技术性面试问题

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 译者 | 晶颜审校 | 重楼不同于互联网上随处可见的传统问题库，这些问题需要跳出常规思维。大语言模型(LLM 在数据科学、生成式...

AIGC 2024-05-23 人工智能

484阅读

拯救被「掰弯」的GPT-4！西交微软北大联合提出IN2训练治疗LLM「中间迷失」

【新智元导读】近日，西交微软北大联合提出信息密集型训练大法，使用纯数据驱动的方式，矫正LLM训练过程产生的偏见，在一定程度上治疗了大语言模型丢失中间信息的问题。辛辛苦苦给大语言模型输入了一大堆提示，它却只记住了开头和结尾? 这个现象叫做LLM的中间迷失（...

生成式AI 2024-05-22 人工智能

480阅读

数据更多更好还是质量更高更好？这项研究能帮你做出选择

对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练，简单来说就是「规模扩展」。虽然直接扩展模型规模看起来简单粗暴，但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法，所谓量变引起质变，这种观点也...

大数据 2024-05-20 人工智能

416阅读

LLM 评估新纪元：Arthur Bench 全方位解读

一、传统文本评估面临的挑战近年来，随着大型语言模型（LLM）的快速发展和改进，传统的文本评估方法在某些方面可能已经不再适用。在文本评估领域，我们可能已经听说过一些方法，例如基于“单词出现”的评估方法，比如 BLEU，以及基于“预训练的自然语言处理模型”...

AIGC 2024-05-10 人工智能

424阅读

谷歌DeepMind新方法Gecko，为测试AI图像生成器引入严格新标准

谷歌 DeepMind 最近的研究示了当前我们对文本到图像 AI 模型性能评估的隐藏局限性。在其发布在预印本服务器 ariv 上的研究中，他们引入了一种全新的方法称为 “Gecko”，承诺提供一个更全和可靠的基准，以评估这一蓬勃发展的技术。研究团队在其...

大数据 2024-04-30 人工智能

464阅读

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

LLM已经可以理解文本和图片了，也能够根据它们的历史知识回答各种问题，但它们或许对周围世界当前发生的事情一无所知。现在LLMs也开始逐步学习理解3D物理空间，通过增强LLMs的「看到」世界的能力，人们可以开发新的应用，在更多场景去获取LLMs的帮助。...

大数据 2024-04-21 人工智能

550阅读

VQAScore官网体验入口 AI文本到视觉生成评估工具使用地址

VQAScore是一种新的评估指标，旨在更好地评估复杂的文本到视觉生成效果。这一指标结合了CLIP-FlanT5 模型，能够在文本到图像/视频/3D生成评估中实现最佳性能，是评估和优化文本到视觉生成模型的强大工具。同时，VQAScore引入了GenAI-B...

人工智能 2024-04-11 人工智能

467阅读

如何评估大语言模型（LLM）的质量——框架、方法、指标和基准。

在人工智能领域，由于大模型（LLM）技术的发展以及其广阔的市场前景，MaaS 以及开源大模型呈现出百家争鸣的景象。现阶段，大型语言模型的开发和应用已经成为各个领域智能化提升的重要方向。为了利用大模型实现业务和产品的提升或创新，就需要对大模型进行系统的评估...

AIGC 2024-04-11 人工智能

1826阅读

探索智能体的边界：AgentQuest，一个全面衡量和提升大型语言模型智能体性能的模块化基准框架

随着大模型的不断进化，LLM智能体——这些强大的算法实体已经展现出解决复杂多步骤推理任务的潜力。从自然语言处理到深度学习，LLM智能体正逐渐成为研究和工业界的焦点，它们不仅能够理解和生成人类语言，还能在多变的环境中制定策略、执行任务，甚至使用API调用和...

人工智能 2024-04-11 人工智能

513阅读

ImagenHub官网体验入口 AI图像生成模型评估平台使用指南方法教程

ImagenHub是一个一站式库，用于标准化所有条件图像生成模型的推理和评估。该项目首先定义了七个突出的任务并创建了高质量的评估数据集。其次，我们构建了一个统一的推理管道来确保公平比较。第三，我们设计了两个人工评估指标，即语义一致性和感知质量，并制定了全面...

AIGC 2024-04-08 人工智能

538阅读

「有效上下文」提升20倍！DeepMind发布ReadAgent框架

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 基于Transformer的大语言模型（LLM）具有很强的语言理解能力，但LLM一次能够读取的文本量仍然受到极大限制。除了上下文窗口...

生成式AI 2024-04-07 人工智能

458阅读

Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

近期，中国香港中文大学和 SmartMore 的研究人员推出了一种名为 Mini-Gemini 的新颖框架，通过增强多模态输入处理来推动 VLMs 的发展。Mini-Gemini 采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据...

大数据 2024-04-01 人工智能

468阅读

python与机器学习日记——文心一言对话记录节选保存

——个人学习用，不适用于大佬——— 虽然以前学过一点python，在Jupiter里练过几行，但都忘记了。今年在朋友的帮助下，下载了pycharm打算好好学习一番，医学小白大战python机器学习。看了两章西瓜书，先都别管，读取文件试试：一言哥说得先...

大数据 2024-03-31 人工智能

536阅读

Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

近日，由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星，在 Twitter 更是「火出圈」，吸引了大量博主二创，浏览量总量达到 300K。目前 Champ 已经开源...

AIGC 2024-03-29 人工智能

576阅读

发现数据异常波动怎么办？别慌，指标监控和归因分析来帮你

企业搭建完善、全面的指标体系是企业用数据指导业务经营决策的第一步。但是做完指标之后，对指标的监控，经常被大家忽视。当指标发生了异常波动（上升或下降），需要企业能够及时发现，并快速找到背后真实的原因，才能针对性地制定相应策略，否则就是盲打，原地打转。指标...

生成式AI 2024-03-28 人工智能

526阅读

两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

广阔的战场，风暴兵在奔跑…… prompt：Wide shot of battlefield, stormtroopers running... 这段长达 1200 帧的 2 分钟视频来自一个文生视频（text-to-video）模型，尽管 AI 生成...

生成式AI 2024-03-27 人工智能

487阅读

新研究：大语言模型“涌现”能力不令人惊讶也不难预测

3月26日消息，一项新的研究认为，大语言模型性能的显著提升并不令人意外，也并非无法预测，实际上这是由我们衡量人工智能性能的方式所决定的。两年前，450位研究人员在一个名为超越模仿游戏基准（Beyond the Imitation Game Bench...

AIGC 2024-03-26 人工智能

520阅读

探索创新：LLAMA Index - 一个智能数据分析利器

探索创新：LLAMA Index - 一个智能数据分析利器项目地址:https://gitcode.com/run-llama/llama_index 项目简介 LLAMA Index 是一款强大的数据预处理和分析工具，旨在简化大数据处理过程，...

人工智能 2024-03-25 人工智能

616阅读

智能座舱软件性能与可靠性的评估和改进

作者 | 张旭海随着智能汽车的不断发展，智能座舱在性能与可靠性上暴露出体验不佳、投诉渐多的问题，本文从工程化的角度简述了如何构建智能座舱软件的评估框架，以及如何持续改进其性能和可靠性。一、智能座舱软件性能和可靠性表现不佳据毕马威发布的《2023...

大数据 2024-03-13 人工智能

529阅读

前端不存在了？盲测64%的人更喜欢GPT-4V的设计，杨笛一等团队新作

3 月 9 日央视的一档节目上，百度创始人、董事长兼 CEO 李彦宏指出，以后不会存在「程序员」这种职业了，因为只要会说话，人人都会具备程序员的能力。「未来的编程语言只会剩下两种，一种叫做英文，一种叫做中文。」自大模型技术突破以来，越来越多的行业拥有...

人工智能 2024-03-11 人工智能

448阅读

【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace，FaceChain团队出品

一、论文本文介绍被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Persp...

大数据 2024-03-09 人工智能

586阅读

CLRNet：一种用于自动驾驶车道检测的分层细化网络算法

车道是具有高级语义的交通标志，特别是在视觉导航系统中尤其重要。检测车道可以使许多应用受益，例如自动驾驶和高级驾驶员辅助系统（ADAS）中的视觉导航就是一个典型的应用，它可以帮助智能车辆更好地进行自车定位并更安全地行驶。然而，车道检测拥有特定的局部模式，...

生成式AI 2024-03-08 人工智能

673阅读

一文看尽297篇文献！中科院领衔发表首篇「基于扩散模型的图像编辑」综述

本文全面研究图像编辑前沿方法，并根据技术路线精炼地划分为3个大类、14个子类，通过表格列明每个方法的类型、条件、可执行任务等信息。此外，本文提出了一个全新benchmark以及LMM Score指标来对代表性方法进行实验评估，为研究者提供了便捷的学习参...

AIGC 2024-03-07 人工智能

436阅读

中科院等万字详解：最前沿图像扩散模型综述

针对图像编辑中的扩散模型，中科院联合Adobe和苹果公司的研究人员发布了一篇重磅综述。全文长达26页，共1.5万余词，涵盖297篇文献，全面研究了图像编辑的各种前沿方法。同时，作者还提出了全新的benchmark，为研究者提供了便捷的学习参考工具。...

生成式AI 2024-03-07 人工智能

444阅读

开环端到端自动驾驶中自车状态是你所需要的一切吗？

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? 论文链接：https://arxiv.org/a...

AIGC 2024-03-07 人工智能

561阅读

aigc检测报告是什么意思

大家好，小发猫降重今天来聊聊aigc检测报告是什么意思，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：标题：揭秘AIGC检测报告：了解AI生成内容的评估与检测随着人工智能技术的快速发展，AIG...

大数据 2024-03-07 人工智能

2064阅读

基于“采集app上的文章到discuz”的内容管理系统跨平台整合方案

随着移动互联网的快速发展，智能手机应用（app）已成为人们获取信息的重要途径。同时，许多网站和论坛，如Discuz这样的社区平台，依然拥有大量的用户群体和活跃的讨论氛围。在这样的背景下，如何将app上的优质内容高效、准确地采集并整合到Discuz等社区平台...

生成式AI 2024-03-06 大数据

503阅读

如何基于 Arthur Bench 进行 LLM 评估？

Hello folks，我是 Luga，今天我们来聊一下人工智能(AI 生态领域相关的技术 - LLM 评估。一、传统文本评估面临的挑战近年来，随着大型语言模型(LLM 的快速发展和改进，传统的文本评估方法在某些方面可能已经不再适用。在文本评估...

人工智能 2024-03-04 人工智能

524阅读

重要的医学AI应用：使用多模态 CNN-DDI预测药物间相互作用事件

生病时，医生往往给我们开了多种药物，这些药物在同时服下时是否因为药物间相互作用产生对身体不良的效果，这引起我们的怀疑和担心。其实医生所开的药方的药品已经经过了药物间相互作用的实验和临床测试，我们不应对此产生疑虑。药物间相互作用（DDI）是指当一个患者同...

人工智能 2024-02-27 人工智能

514阅读

8/8/6/3的Mamba论文，最终还是被ICLR 2024拒了，网友：悬着的心终于死了

几天前，ICLR 2024 的最终接收结果出来了。大家应该还记得，Mamba 被 ICLR 2024 大会 Decision Pending（待定）的消息在 1 月份引发过一波社区热议。当时，多位领域内的研究者分析，Decision Pending...

人工智能 2024-02-26 人工智能

442阅读

清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力

与生成式 AI 相比，自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是 AI 的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括...

大数据 2024-02-23 人工智能

502阅读

【AIGC】Stable Diffusion之模型微调工具

推荐一款好用的模型微调工具，cybertron furnace 是一个lora训练整合包，提供训练 lora 模型的工具集或环境。集成环境包括必要的依赖项和配置文件、预训练脚本，支持人物、二次元、画风、自定义lora的训练，以简化用户训练 lora 模型...

AIGC 2024-02-22 人工智能

832阅读

第三章：AIGC框架和应用场景

1.背景介绍人工智能(AI 和机器学习(ML 技术在过去几年中取得了显著的进展，为许多领域带来了革命性的改变。自动化图像生成(AIGC 是一种使用AI和ML技术自动生成高质量图像的方法。AIGC框架可以应用于许多场景，例如生成艺术作品、设计、广...

大数据 2024-02-22 人工智能

734阅读

AIGC总体相似度是什么意思

大家好，今天来聊聊AIGC总体相似度是什么意思，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：标题：AIGC总体相似度：一篇深入解析的文章随着人工智能技术的飞速发展，AIGC（人工智能生成...

AIGC 2024-02-14 人工智能

1885阅读

上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务

本文首发于微信公众号 CVHub，未经授权不得以任何形式售卖或私自转载到其它平台，违者必究！ Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-...

人工智能 2024-02-11 人工智能

637阅读

ChatGPT高效提问—基础知识（AIGC）

ChatGPT高效提问—基础知识为了更好地学习AI和prompt相关知识，有必要了解AI领域的几个专业概念。 1.1 初识AIGC AIGC（artificial intelligence generated content）即人工智能生成的内...

AIGC 2024-02-07 人工智能

568阅读

AIGC知识速递——Google的Bert模型是如何fine-tuning的？

Look！?我们的大模型商业化落地产品 ?更多AI资讯请??关注 Free三天集训营助教在线为您火热答疑??‍? 选择合适的预训练模型：从预训练的BERT模型开始，例如Google 提供的BERT-base 或 BERT-large。这些模型已经...

人工智能 2024-02-07 人工智能

574阅读

挖掘BEV潜力的边界！DA-BEV：无监督BEV SOTA新方案！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解今天和大家探讨3D视觉感知领域中的一个特定问题：针对纯视觉的鸟瞰图（BEV）的无监督领Domain Adaptation（Unsupervised Domain Ad...

大数据 2024-02-06 人工智能

612阅读

ChatGPT论文：大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较（一）

摘要 ChatGPT的成功引发了一场AI竞赛，研究人员致力于开发新的大型语言模型（LLMs），以匹敌或超越商业模型的语言理解和生成能力。近期，许多声称其性能接近GPT-3.5或GPT-4的模型通过各种指令调优方法出现了。作为文本到SQL解析的从业者，我...

大数据 2024-02-05 人工智能

633阅读

iPhone动嘴10秒P图！UCSB苹果全华人团队发布多模态MGIE，官宣开源人人可玩

几天前，库克在苹果电话会上证实，「今年晚些时候会发布生成式AI」。 ChatGPT掀起全球热潮之后，苹果也在悄悄发力AI，曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满了期待。 6月举办的WWDC上，这家曾霸占全球市值第一公司，将会宣布...

AIGC 2024-02-05 人工智能

459阅读

一文搞懂使用 Arthur Bench 进行 LLM 评估

Hello folks，我是 Luga，今天我们来聊一下人工智能(AI 生态领域相关的技术 - LLM 评估。一、传统文本评估面临的挑战近年来，随着大型语言模型(LLM 的快速发展和改进，传统的文本评估方法在某些方面可能已经不再适用。在文本评估领...

人工智能 2024-02-04 人工智能

512阅读

深度学习（生成式模型）—— stable diffusion：High-Resolution Image Synthesis with Latent Diffusion Models

文章目录前言 motivation Conditioning Mechanisms 实验结果如何训练autoencoder LDM性能与autoencoder深度的联系 LDM带来的图像生成速率提升 LDM在图像生成任务上与sota方法比...

大数据 2024-02-02 人工智能

625阅读

近200+自动驾驶数据集全面调研！一览如何数据闭环全流程

写在前面&个人理解自动驾驶技术在硬件和深度学习方法的最新进展中迅速发展，并展现出令人期待的性能。高质量的数据集对于开发可靠的自动驾驶算法至关重要。先前的数据集调研试图回顾这些数据集，但要么集中在有限数量的数据集上，要么缺乏对数据集特征的详细调查...

生成式AI 2024-01-31 人工智能

754阅读

使用 Transformers 为多语种语音识别任务微调 Whisper 模型

本文提供了一个使用 Hugging Face ? Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时，我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识，并提供...

大数据 2024-01-27 人工智能

728阅读

18LLM4SE革命性技术揭秘：大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报综述

Large Language Models for Software Engineering: A Systematic Literature Review 写在最前面论文名片课堂讨论 RQ1部分：LLMs的选择和优化 RQ2部分：LLM...

人工智能 2024-01-27 人工智能

780阅读

大模型×文本水印：清华、港中文、港科广、UIC、北邮联合发布首个大模型时代下的文本水印综述

论文：A Survey of Text Watermarking in the Era of Large Language Models 论文链接：https://arxiv.org/abs/2312.07913 大模型时代：文本水印新纪元文本水...

生成式AI 2024-01-26 人工智能

589阅读

迈向分割的大一统！OMG-Seg：一个模型搞定所有分割任务

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者个人思考图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一；大模型以及多模态的发展又带来了文本和图像统一，使得跨模态端到端成为可能；追求更高级、更全面...

生成式AI 2024-01-24 人工智能

644阅读