数据集第28页 - AIGC资讯

情境智能：数据分析的下一个前沿

情境智能概述情境智能是一种人工智能技术，旨在使计算机系统能够理解和适应于不同情境下的环境、用户需求和目标。它涉及到对语境、背景知识和用户意图的理解，并基于这些理解来做出智能决策或提供个性化的服务。情境智能通常涉及以下几个方面：自然语言处理(NLP...

人工智能 2024-03-29 人工智能

887阅读

Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

近日，由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星，在 Twitter 更是「火出圈」，吸引了大量博主二创，浏览量总量达到 300K。目前 Champ 已经开源...

AIGC 2024-03-29 人工智能

994阅读

DriveCoT：全面的开环端到端驾驶数据集和Benchmark

本文经自动驾驶之心公众号授权转载，转载请联系出处。近年来，端到端自动驾驶技术取得了显著进展，表现出系统简单性和在开环和闭环设置下竞争性驾驶性能的优势。然而，端到端驾驶系统在驾驶决策方面缺乏可解释性和可控性，这阻碍了其在真实世界中的部署。本文利用CAR...

生成式AI 2024-03-29 人工智能

1187阅读

大型语言模型如何教会自己遵循人类指令？

译者 | 李睿审校 | 重楼如今，人们对能够使大型语言模型(LLM 在很少或没有人为干预的情况下改进功能的技术越来越感兴趣。大型语言模型(LLM 自我改进的领域之一是指令微调(IFT ，也就是让大型语言模型教会自己遵循人类指令。指令微调(IFT ...

人工智能 2024-03-29 人工智能

950阅读

量产杀器！P-Mapnet：利用低精地图SDMap先验，建图性能暴力提升近20个点！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一，现有的算法在远距离范围下的感知表现依然较差。为此，我们提出了P-MapNet，其中的“P”强调我们专注于融合地图先验以...

AIGC 2024-03-28 人工智能

1104阅读

一张图即出AI视频！谷歌全新扩散模型，让人物动起来

只需一张照片，和一段音频，就能直接生成人物说话的视频！近日，来自谷歌的研究人员发布了多模态扩散模型VLOGGER，让我们朝着虚拟数字人又迈进了一步。论文地址：https://enriccorona.github.io/vlogger/paper.p...

生成式AI 2024-03-28 人工智能

843阅读

Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

Claude 3的诞生又一次震惊了全世界。 Claude 3 Opus，Claude 3中最智能的模型，在大多数常见的人工智能系统评估基准测试中表现优异，包括本科水平专家知识（MMLU）、研究生水平专家推理（GPQA）、基础数学（GSM8K）等。图片...

大数据 2024-03-28 人工智能

1095阅读

AIGC ChatGPT 4 带你了解数据仓库、数据集市、数据湖、数据中台之间的关系

1 数据仓库：数据仓库（Data Warehouse）是一个组织为了支持决策制定而创建的主题性、集成性、时间相关性和稳定性的集中数据管理环境。数据仓库集中存储来自组织的各个业务部门的大量数据，有助于执行查询和分析操作。数据仓库的主要特点包括：...

大数据 2024-03-28 人工智能

928阅读

Video-LLaMa:利用多模态增强对视频内容理解

在数字时代，视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务，不仅需要视觉和听觉信号的整合，还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的...

AIGC 2024-03-27 人工智能

891阅读

15个推荐开源免费图像标注工具

图像标注是向图像添加标签或注释的元数据，使图像上的内容具有上下文含义。这个过程在机器学习中具有重要意义，助于在训练视觉模型过程中准确地识别图像中的元素。视觉模型最终的用途也非常广泛，例如，帮助车辆识别道路上的不同物体或障碍物、通过对医学图像的识别帮助疾...

AIGC 2024-03-27 人工智能

3135阅读

详解Latte：去年底上线的全球首个开源文生视频DiT

随着 Sora 的成功发布，视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。然而，由于视频数据的高度结构化与复杂性，如何将 DiT 扩展到视频生成领...

AIGC 2024-03-27 人工智能

899阅读

AI时代的网络安全：探索AI生成的网络攻击

译者 | 晶颜审校 | 重楼长期以来，网络攻击一直是劳动密集型的，需要经过精心策划并投入大量的人工研究。然而，随着人工智能技术的出现，威胁行为者已经成功利用它们的能力，以非凡的效率策划攻击。这种技术转变使他们能够大规模地执行更复杂、更难以检测的攻击，...

人工智能 2024-03-27 人工智能

874阅读

DifFlow3D：场景流估计新SOTA，扩散模型又下一城！

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based...

大数据 2024-03-27 人工智能

879阅读

TrajectoryNAS：一种用于轨迹预测的神经结构搜索

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：https://arxiv.org/pdf/2403.11695.pdf 本文介绍了TrajectoryNAS：一种用于轨迹预测的神经结构搜索。自动驾驶系统是一项快速发展的技术，其可以实现...

大数据 2024-03-26 人工智能

898阅读

CLIP-BEVFormer：显式监督BEVFormer结构，提升长尾检测性能

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解目前，在整个自动驾驶系统当中，感知模块扮演了其中至关重要的角色，行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后，才能让自动驾驶系统中的下游规控模块做...

大数据 2024-03-26 人工智能

1246阅读

腾讯机器人研究登顶刊！能帮程序员安显示器，像真人一样协同干活

国产机器人新突破：两只各自独立的机械臂，已经可以丝滑地打配合了！不信你看这双手拧瓶盖：拧完再端起杯子倒水：活灵活现，如真人。呐，还能搭把手帮程序员安装好显示屏：甚至接过“同事”手里的大箱子：可以说是各种几何和物理特性的物体都能稳稳h...

生成式AI 2024-03-26 人工智能

919阅读

等不及公开了！最新Sora模型细节揭秘：预计峰值需要72万块H100！每月至少4200块H100！缩放定律依旧有效！

作者 | Matthias·Plappert 翻译 | 言征出品 | 51CTO技术栈（微信号：blog51cto） OpenAI的Sora模型能够生成各种场景的极其逼真的视频，令世界惊叹不已。除了一篇公开的技术报告和TikTok上放出的酷炫视频，就...

AIGC 2024-03-26 人工智能

941阅读

清华和微软联合起来对提示词下手了！直接缩短80%，跟大模型对话的头疼系数直线下降！变相扩大了上下文窗口！

出品 | 51CTO技术栈（微信号：blog51cto）想一下，现在普通人调用个大模型有多别扭，你得一个个上传文件，然后再告诉它自己想要什么样的输出，最好给它一套优秀的模版，它才能给出个像样的回答。这就好比你自己的大脑都快想出答案来了，它只不过是帮...

生成式AI 2024-03-26 人工智能

874阅读

OpenAI颠覆导演！首批7个Sora超现实大片震惊好莱坞

Sora给好莱坞的震撼，就在刚刚变成了现实！几天前，「OpenAI正在向好莱坞推销Sora」的消息才刚刚传出。而今天一早，首批拿到Sora授权的导演、艺术家们，就已经公开自己创作的最新短片了。堪称神速！ OpenAI为之配文——Sora初印象。...

生成式AI 2024-03-26 人工智能

881阅读

AIGC实战——Transformer模型

AIGC实战——Transformer模型 0. 前言 1. T5 2. GPT-3 和 GPT-4 3. ChatGPT 小结系列链接 0. 前言我们在 GPT (Generative Pre-trained Transfo...

AIGC 2024-03-26 人工智能

981阅读

突破性的百万级视频和语言世界模型：Large World Model~

本文经自动驾驶之心公众号授权转载，转载请联系出处。在探索如何让AI更好地理解世界方面，最近的一项突破性研究引起了广泛关注。来自加州大学伯克利分校的研究团队发布了“Large World Model, LWM”，能够同时处理百万级长度的视频和语言序列，...

生成式AI 2024-03-26 人工智能

975阅读

CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

视频理解的核心目标在于对时空表示的把握，这存在两个巨大挑战：短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战，但它们在...

大数据 2024-03-26 人工智能

905阅读

利用MindsDB和Anyscale微调Mistral 7B模型

在我们为面向客户的聊天应用制作大语言模型 (LLM 时，预训练模型往往是很好的起点，但随着时间的推移，您可能希望去控制该模型聊天的整体行为和给客户带去的“感觉”，而不仅仅由基本模型所能提供。对此，我们虽然可以通过提示工程（prompt engineeri...

生成式AI 2024-03-26 人工智能

1006阅读

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

在最近的研究中，视觉-语言-动作（VLA，vision-language-action）模型的输入基本都是2D数据，没有集成更通用的3D物理世界。此外，现有的模型通过学习「感知到动作的直接映射」来进行动作预测，忽略了世界的动态性，以及动作和动态之间的关...

生成式AI 2024-03-26 人工智能

902阅读

如何利用对抗学习实现产品推荐功能？

作者 | 汪昊审校 | 重楼推荐系统自1992 年首篇论文提出协同过滤算法诞生以来，经历了互联网公司百万次的模型迭代，犹如不断涅的凤凰，从一次又一次的低谷中不断重生，先后诞生了百分点、快手、抖音、今日头条等知名的公司和产品。推荐系统最大的功能在于...

大数据 2024-03-25 人工智能

980阅读

应对生成人工智能的挑战，数据治理要如何发展？

最近想到了数据治理，所以我决定通过输入提示来查询ChatGPT：“什么是数据治理？” AI 回应道：“数据治理是一组流程、政策、标准和指南，可确保数据在组织内得到正确管理、保护和利用。”这是一个好的开始，目前关于数据治理及其意义还有很多话要说。生成人...

大数据 2024-03-25 人工智能

913阅读

剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

论文链接：https://arxiv.org/abs/2402.08327 DEMO 链接：https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/ 项目主页链接：https://preflm...

AIGC 2024-03-25 人工智能

1184阅读

清华微软开源全新提示词压缩工具，长度骤降80%！GitHub怒砍3.1K星

在自然语言处理中，有很多信息其实是重复的。如果能将提示词进行有效地压缩，某种程度上也相当于扩大了模型支持上下文的长度。现有的信息熵方法是通过删除某些词或短语来减少这种冗余。然而，作为依据的信息熵仅仅考虑了文本的单向上下文，进而可能会遗漏对于压缩至关...

生成式AI 2024-03-25 人工智能

929阅读

通用文档理解新SOTA，多模态大模型TextMonkey来了

最近，华中科技大学和金山的研究人员在多模态大模型 Monkey [1]（Li et al., CVPR2024）工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中，TextMonkey 处于国际领先地位，有潜力带来办公自动化、智慧教...

人工智能 2024-03-25 人工智能

893阅读

微软新工具LLMLingua-2：可将 AI 提示压缩高达80%，节省时间和成本

微软研究发布了名为 LLMLingua-2的模型，用于任务不可知的提示压缩。该模型通过智能地去除长提示中的不必要词语或标记，同时保留关键信息，使得提示长度可减少至原长度的20%，从而降低成本和延迟。研究团队写道:“自然语言存在冗余，信息量不尽相同。” LL...

生成式AI 2024-03-25 人工智能

1077阅读

何恺明新作：消除数据集偏差的十年之战

MIT新晋副教授何恺明，新作新鲜出炉：瞄准一个横亘在AI发展之路上十年之久的问题：数据集偏差。该研究为何恺明在Meta期间与刘壮合作完成，他们在论文中指出：尽管过去十多年里业界为构建更大、更多样化、更全面、偏差更小的数据集做了很多努力，但现代神经...

大数据 2024-03-25 人工智能

829阅读

零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

物体姿态估计在许多现实世界应用中起到至关重要的作用，例如具身智能、机器人灵巧操作和增强现实等。在这一领域中，最先受到关注的任务是实例级别 6D 姿态估计，其需要关于目标物体的带标注数据进行模型训练，使深度模型具有物体特定性，无法迁移应用到新物体上。后来...

大数据 2024-03-25 人工智能

933阅读

llama factory 参数体系EvaluationArguments、DataArguments、FinetuningArguments、FreezeArguments、LoraArgument

项目地址 https://github.com/hiyouga/LLaMA-Factory 模型层参数这段代码是使用Python的dataclasses模块定义的一个数据类ModelArguments，用于管理和存储与模型微调相关的参数。这个类的设计是...

人工智能 2024-03-25 人工智能

1857阅读

图像生成地表最强！Playground v2.5技术报告解读重磅来袭！超越SD、DALL·E 3和 Midjourney

文章链接：https://arxiv.org/pdf/2402.17245 模型地址： https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic 本文分享了在文本到图像生成模...

AIGC 2024-03-25 人工智能

1272阅读

每日一看大模型新闻（2024.1.4）中国AIGC广告营销产业全景报告：五大变革四大影响；马斯克也逃不过「科目三」，阿里这个应用都要把外国人馋哭了；通义千问：上线图生视频功能

1.产品发布 1.1首创pix2emb范式！NUS清华联合发布NExT-Chat：对话/检测/分割全能多模态大模型发布日期：2024-1-4 首创pix2emb范式！NUS清华联合发布NExT-Chat：对话/检测/分割全能多模态大模型...

生成式AI 2024-03-23 人工智能

840阅读

深圳3公里精准预报！华为发布首个区域天气预报AI模型“智霁”1.0

快科技3月23日消息，在今天世界气象日的气候行动最前线”主题活动上，华为云与深圳市气象局共同发布了首个人工智能区域预报模型智霁”1.0，标志着气象预报迎来了新的里程碑。这一区域模型以华为云盘古气象大模型为基础，融合了区域高质量气象数据集，能够迅速地为未来...

人工智能 2024-03-23 人工智能

835阅读

大模型之Llama系列- LlaMA 2及LLaMA2_chat(上)

LlaMA 2是一个经过预训练与微调的基于自回归的transformer的LLMs，参数从7B至70B。同期推出的Llama 2-Chat是Llama 2专门为对话领域微调的模型。在许多开放的基准测试中Llama 2-Chat优于其他开源的聊天模型，此外...

AIGC 2024-03-22 人工智能

952阅读

Sora不开源，微软给你开源！全球最接近Sora视频模型诞生，12秒生成效果逼真炸裂

微软版Sora诞生了！ Sora虽爆火但闭源，给学术界带来了不小的挑战。学者们只能尝试使用逆向工程来对Sora复现或扩展。尽管提出了Diffusion Transformer和空间patch策略，但想要达到Sora的性能还是很难，何况还缺乏算力和数据集...

大数据 2024-03-22 人工智能

922阅读

微软NaturalSpeech语音合成推出第三代，网友惊呼：超自然！实至名归

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。在大模型（LLM）时代下，语音合成技术能够扩展大模型的语音交互能力，更是受到了广泛的关注。多年来，微...

AIGC 2024-03-22 人工智能

771阅读

Stable Diffusion 模型下载和使用方法

1、Stable Diffusion模型简介上一文中《Stable Diffusion绘图神器，2分钟极速安装教程！（提供安装包）-CSDN博客》，给大家介绍了Stable Diffusion的安装方法和简单的使用方式，有...

生成式AI 2024-03-22 人工智能

1382阅读

LLM、RAG虽好，但XGBoost更香！

编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）数据&AI企业家、投资人Oliver Molander 近日在LinkedIn上的帖子中打趣道：“如果你在2022年[ChatGPT推出]之前问人工智能专家什么是LL...

人工智能 2024-03-22 人工智能

949阅读

最全总结！机器学习优化算法！

机器学习的最优化算法是用于找到最佳模型参数，以最小化预测误差的算法。这些算法通过迭代地调整模型参数，以不断改进模型的性能。本文系统地介绍了优化算法，基本脉络是从优化的基础知识，到各种优化算法原理的介绍及代码示例，最后放上各种算法的对比及实践经验总结!...

人工智能 2024-03-22 人工智能

1141阅读

文生图的基石CLIP模型的发展综述

CLIP的英文全称是Contrastive Language-Image Pre-training，即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里...

AIGC 2024-03-22 人工智能

1042阅读

【本地大模型部署与微调】ChatGLM3-6b、m3e、one-api、Fastgpt、LLaMA-Factory

本文档详细介绍了使用ChatGLM3-6b大模型、m3e向量模型、one-api接口管理以及Fastgpt的知识库，成功的在本地搭建了一个大模型。此外，还利用LLaMA-Factory进行了大模型的微调。 1.ChatGLM3-6b 2.m3e 3....

人工智能 2024-03-22 人工智能

1542阅读

数据本地性如何助力企业在云上实现高效机器学习

2.2 训练前将数据从远端拷贝到本地另一种方案是在训练开始之前手动将数据集从远端云存储拷贝到本地磁盘/存储中。这样可以让数据位于本地，从而具备数据本地性的所有性能和成本优势。该方案的挑战主要在于数据管理。用户必须在作业完成后手动删除已拷贝的数据，为下一...

人工智能 2024-03-22 人工智能

1008阅读

人工智能可以预测犯罪吗？探索CrimeGPT的能力

人工智能(AI 与执法的交叉点开辟了犯罪预防和侦查的新领域。人工智能的预测能力通常被封锁在CrimeGPT(犯罪预测技术等系统中，越来越多地用于预测犯罪活动。本文探讨了人工智能在预测犯罪方面的潜力、目前的应用、面临的挑战以及此类技术的道德影响。人工...

AIGC 2024-03-22 人工智能

957阅读

深度估计SOTA！自动驾驶单目与环视深度的自适应融合

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&个人理解多视图深度估计在各种基准测试中都取得了较高性能。然而，目前几乎所有的多视图系统都依赖于给定的理想相机姿态，而这在许多现实世界的场景中是不可用的，例如自动驾驶。本工作提出了一...

大数据 2024-03-22 人工智能

1168阅读

MIT研究员推新AI图片生成框架DMD：AI 单步生成高质量图像速度快30倍

在当今人工智能时代，计算机可以通过扩散模型生成自己的 “艺术”，逐步向嘈杂的初始状态添加结构，直到清晰的图像或视频出现。扩散模型突然变得异常受欢迎:输入几个词，即可体验现实与幻想交汇的梦幻景象。在幕后，这涉及一个复杂、耗时的过程，需要算法多次迭代才能完美...

生成式AI 2024-03-22 人工智能

888阅读

符尧大佬一作发文，仅改训练数据，就让LLaMa-2上下文长度扩展20倍！

引言：探索语言模型的长上下文能力近日，谷歌推出了Gemini Pro 1.5，将上下文窗口长度扩展到100万个tokens，目前领先世界。而其他语言模型也正在不断探索长上下文能力，也就是模型处理和理解超出其训练时所见上下文长度的能力。例如，一个模型可能...

生成式AI 2024-03-22 人工智能

1015阅读

AtomoVideo：AIGC赋能下的电商视频动效生成

✍? 本文作者：凌潼、依竹、桅桔、逾溪 1. 概述当今电商领域，内容营销的形式正日趋多样化，视频内容以其生动鲜明的视觉体验和迅捷高效的信息传播能力，为商家创造了新的机遇。消费者对视频内容的偏好驱动了视频创意供给的持续增长，视觉内容...

大数据 2024-03-22 人工智能

1222阅读