泛化能力第4页 - AIGC资讯

港科大最新！Vista：一种具有高保真度和多功能可控的世界模型

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability 论文链接...

人工智能 2024-06-04 人工智能

1067阅读

首个智慧城市大模型UrbanGPT，全面开源开放｜港大&百度

时空预测技术，迎来ChatGPT时刻。时空预测致力于捕捉城市生活的动态变化，并预测其未来走向，它不仅关注交通和人流的流动，还涵盖了犯罪趋势等多个维度。目前，深度时空预测技术在生成精确的时空模型方面，依赖于大量训练数据的支撑，这在城市数据不足的情况下显得...

大数据 2024-06-03 人工智能

832阅读

whisper-v3模型部署环境执行

1. 安装whisperV3 github git clone https://github.com/openai/whisper.git pip install -U openai-whisper pip install setuptools-ru...

大数据 2024-06-03 人工智能

1691阅读

港大&百度发布首个智慧城市大模型UrbanGPT，助力时空预测技术突破

香港大学与百度联合发布了首个智慧城市大模型 UrbanGPT，该模型在时空预测技术领域引发了重大突破。时空预测技术的重要性日益凸显，不仅关注交通和人流的流动，还涵盖了犯罪趋势等多个维度。然而，由于城市数据不足，传统的时空预测模型在精确预测方面受到了限制。U...

大数据 2024-06-02 人工智能

836阅读

详解AI作画算法原理

引言（1）背景介绍 AI作画，即利用人工智能技术进行艺术创作，近年来引起了广泛关注。随着计算机科学的发展，特别是深度学习和生成对抗网络（GAN）等技术的进步，AI作画从一个新颖的概念逐步走向实用化。AI作画的兴起可以追溯到早期的计算机艺术实验，如...

生成式AI 2024-06-02 人工智能

1303阅读

通用大模型研究重点之五：llama family

LLAMA Family decoder-only类型 LLaMA（Large Language Model AI）在4月18日公布旗下最大模型LLAMA3，参数高达4000亿。目前meta已经开源了80亿和700亿版本模型，主要升级是多模态、长文本方...

AIGC 2024-05-30 人工智能

1160阅读

适应多形态多任务，最强开源机器人学习系统「八爪鱼」诞生

在机器人学习方面，一种常用方法是收集针对特定机器人和任务的数据集，然后用其来训练策略。但是，如果使用这种方法来从头开始学习，每一个任务都需要收集足够数据，并且所得策略的泛化能力通常也不佳。原理上讲，从其它机器人和任务收集的经验能提供可能的解决方案，能让...

生成式AI 2024-05-28 人工智能

890阅读

综述！全面概括基础模型对于推动自动驾驶的重要作用

写在前面&笔者的个人理解近年来，随着深度学习技术的发展和突破，大规模的基础模型（Foundation Models）在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景，可以提高对于场景的理解和推理。...

生成式AI 2024-05-23 人工智能

836阅读

百度推荐资源冷启动实践

一、内容冷启动概念及挑战百度 feed 推荐是一个月活数亿的综合信息流推荐平台。该平台涵盖了图文、视频、动态、小程序、问答等多种内容类型。它不仅提供类似于单列或双列的点选式推荐，还包括视频沉浸式等多种推荐形式。同时，推荐系统是一个多利益方的系统，不仅...

人工智能 2024-05-20 人工智能

1089阅读

所有生命分子一夜皆可AI预测！AlphaFold 3改变人类对生命的理解，全球科学家都能免费使用

AlphaFold 3再登Nature！这次重磅升级，不再仅限于蛋白质结构预测——可以以前所未有的精度预测所有生命分子的结构和相互作用。只有了解它们如何在数百万种组合中相互作用，我们才能开始真正理解生命的过程。这次的最大创新之一，是用上了AI绘画...

AIGC 2024-05-09 人工智能

964阅读

港大开源图基础大模型OpenGraph 增强图学习泛化能力

香港大学数据智能实验室主任黄超团队开发了一款名为 OpenGraph 的图基础大模型，专注于在多种图数据集上进行零样本预测。该模型通过学习通用的图结构模式，仅通过前向传播即可对全新数据进行预测，有效缓解了图学习领域的数据饥荒问题。关键特点: 强泛化能...

大数据 2024-05-09 人工智能

850阅读

港大开源图基础大模型OpenGraph: 强泛化能力，前向传播预测全新数据

图学习领域的数据饥荒问题，又有能缓解的新花活了！ OpenGraph，一个基于图的基础模型，专门用于在多种图数据集上进行零样本预测。背后是港大数据智能实验室的主任Chao Huang团队，他们还针对图模型提出了提示调整技术，以提高模型对新任务的适应性。...

生成式AI 2024-05-09 人工智能

837阅读

通过学习曲线识别过拟合和欠拟合

本文将介绍如何通过学习曲线来有效识别机器学习模型中的过拟合和欠拟合。欠拟合和过拟合 1、过拟合如果一个模型对数据进行了过度训练，以至于它从中学习了噪声，那么这个模型就被称为过拟合。过拟合模型非常完美地学习了每一个例子，所以它会错误地分类一个看不见的...

人工智能 2024-04-29 人工智能

838阅读

Gaussian-LIC：首个多传感器融合3DGS-SLAM系统（浙大&TUM）

本文经自动驾驶之心公众号授权转载，转载请联系出处。多传感器与3DGS的结合 NeRF-based SLAM的隐式神经表示法需要基于3D空间中的采样进行计算密集型的体积渲染，从而削弱了SLAM应用所必需的实时能力。3DGS以其快速的渲染速度和优越的视觉...

人工智能 2024-04-29 人工智能

1232阅读

会颠勺的国产机器人来了：大模型加持，家务能力满分

随着 AI 向 AGI（通用人工智能）的圣杯方向加速发展，大模型与机器人的结合是必然趋势。数十年来，单一用途机器人市场已趋于饱和，AI 通用机器人的巨大潜力急待开垦。刚刚，来自星尘智能公司的自研 AI 机器人 Astribot S1，在同规格机器人中展现...

大数据 2024-04-26 人工智能

944阅读

AI视频生成工具ID-Animator：可保持角色一致生成视频动画

近年来，生成具有指定身份的高保真人类视频引起了广泛关注。然而，现有技术在训练效率和身份保持之间往往难以取得平衡，要么需要繁琐的逐案微调，要么在视频生成过程中通常会丢失身份细节。研究提出了一种名为 ID-Animator 的零样本人类视频生成方法，可以在无需...

大数据 2024-04-25 人工智能

912阅读

综述！深度模型融合（LLM/基础模型/联邦学习/微调等）

23年9月国防科大、京东和北理工的论文“Deep Model Fusion: A Survey”。深度模型融合/合并是一种新兴技术，它将多个深度学习模型的参数或预测合并为一个模型。它结合了不同模型的能力来弥补单个模型的偏差和错误，以获得更好的性能。然而...

生成式AI 2024-04-21 人工智能

1360阅读

自回归超越扩散！北大、字节 VAR 范式解锁视觉生成 Scaling Law

新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了！使 GPT 风格的自回归模型在图像生成首次超越扩散模型，并观察到与大语言模型相似的 Scaling Laws 缩放定律、Zero-shot Task General...

大数据 2024-04-20 人工智能

944阅读

通透！机器学习各大模型原理的深度剖析！

通俗来说，机器学习模型就是一种数学函数，它能够将输入数据映射到预测输出。更具体地说，机器学习模型就是一种通过学习训练数据，来调整模型参数，以最小化预测输出与真实标签之间的误差的数学函数。机器学习中的模型有很多种，例如逻辑回归模型、决策树模型、支持向量...

大数据 2024-04-12 人工智能

939阅读

中山大学“梗王”大模型CLoT 靠讲笑话入选顶会CVPR

中山大学HCP实验室联合Sea AI Lab和哈佛大学等单位开展的一项研究，成功地让大型人工智能模型通过讲笑话的方式，探索多模态大模型的创造力，并因此获得了计算机视觉和模式识别领域的顶级会议CVPR的认可。这项研究的关键在于使用来自日本的“大喜利”（Oo...

生成式AI 2024-04-12 人工智能

1161阅读

新加坡国立大学 | 通过语言分割任何3D目标

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解本文研究了具有自由形式语言指令的开放词汇3D实例分割（OV-3DIS）。先前的作品只依赖于注释的基本类别进行训练，对看不见的长尾类别的泛化能力有限。最近的工作通过生成类...

人工智能 2024-04-12 人工智能

939阅读

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

本文经自动驾驶之心公众号授权转载，转载请联系出处。这篇论文聚焦于3D目标检测的领域，特别是Open-Vocabulary的3D目标检测。在传统的3D目标检测任务中，系统旨在预测真实场景中物体的定向3D边界框和语义类别标签，这通常依赖于点云或RGB图像...

生成式AI 2024-04-11 人工智能

842阅读

阿里开源的32B大模型到底强在哪里？你知道吗？

阿里巴巴最近开源了一个320亿参数的大语言模型Qwen1.5-32B，网上都说很强很强，那么它到底强在哪里呢？更高的性价比 Qwen1.5-32B中的B是billion的意思，也就是10亿，32B就代表320亿参数量。阿里之前还开源过一个大模型Qwe...

大数据 2024-04-10 人工智能

1451阅读

深度学习架构的超级英雄——BatchNorm2d

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 本文旨在探索2D批处理规范化在深度学习架构中的关键作用，并通过简单的例子来解释该技术的内部工作原理。由作者本人创建的图像深度学习...

AIGC 2024-04-09 人工智能

1024阅读

VAR官网体验入口自回归式AI视觉生成工具使用地址

VAR是一种新的视觉自回归建模方法，能够超越扩散模型，实现更高效的图像生成。它建立了视觉生成的幂律scaling laws，并具备零shots的泛化能力。VAR提供了一系列不同规模的预训练模型，供用户探索和使用。点击前往VAR官网体验入口谁可以从VA...

生成式AI 2024-04-08 人工智能

850阅读

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

如果你一直在关注大型语言模型的架构，你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数，它结合了SWISH和...

大数据 2024-04-08 人工智能

1211阅读

多模态大模型有了统一分割框架，华科PSALM多任务登顶，模型代码全开源

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 最近，多模态大模型（LMM）取得了一系列引人注目的成就，特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各...

AIGC 2024-04-08 人工智能

860阅读

CVPR 2024满分论文，英伟达开源BOP排行榜6D物体姿态第一名方法

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 物体姿态估计对于各种应用至关重要，例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据，并且不能应用于测试时未...

大数据 2024-04-08 人工智能

962阅读

OS-Copilot：实现具有自我完善能力的通用计算机智能体

? CSDN 叶庭云：https://yetingyun.blog.csdn.net/ AI 缩小了人类间的知识和技术差距论文标题：OS-Copilot: Towards Generalist Computer Agents with S...

人工智能 2024-04-03 人工智能

969阅读

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！

本文经自动驾驶之心公众号授权转载，转载请联系出处。 0. 这篇文章干了啥？提出了DepthFM：一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外，DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高...

AIGC 2024-04-03 人工智能

883阅读

快速理解AIGC图像控制利器ControlNet和Lora的架构原理

作者公众号大数据与AI杂谈（TalkCheap），转载请标明出处 ControlNet以及Lora是什么，玩过stable diffusion AI图像生成的同学应该都不陌生。一般来说，如果你用以SD 或 SDXL为基础的模型来生成图像，产出的图...

人工智能 2024-04-02 人工智能

1593阅读

DeepMind首发游戏AI智能体SIMA！只用自然语言就能玩转「山羊模拟器」

谷歌DeepMind在AI和游戏方面有着悠久的历史。从过去与Atari游戏的密切合作开始，然后发展到AlphaStar系统可以在《星际争霸II》中达到人类大师级水平，到如今，DeepMind从单个游戏转向了通用的、可指导的游戏AI代理。 SIMA，是一...

生成式AI 2024-04-01 人工智能

913阅读

Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

近日，由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星，在 Twitter 更是「火出圈」，吸引了大量博主二创，浏览量总量达到 300K。目前 Champ 已经开源...

AIGC 2024-03-29 人工智能

991阅读

深夜里，女朋友给我讲解AI大语言模型的技术原理，搞得我又失眠了

随着ChatGPT的横空出世，各种大模型如雨后春笋一般涌现。女朋友最近研究了大模型，准备深夜给我讲解技术原理。可是我真的好困啊，但她说，AI最近那么火，你确定不想学习下吗？她说，大语言模型是一种人工智能技术，它可以理解和生成人类语言。这种模型的技术原...

生成式AI 2024-03-28 人工智能

870阅读

Stable Diffusion 3 来了 —— 充满了巨大的改进

文章目录什么是Stable Diffusion 3？ Stable Diffusion 3 有哪些新功能？ Stable Diffusion 3 对比 Dall-E 3 和 Gemini 如何获得Stable Diffusion 3 的访问权...

大数据 2024-03-28 人工智能

959阅读

CLIP-BEVFormer：显式监督BEVFormer结构，提升长尾检测性能

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解目前，在整个自动驾驶系统当中，感知模块扮演了其中至关重要的角色，行驶在道路上的自动驾驶车辆只有通过感知模块获得到准确的感知结果后，才能让自动驾驶系统中的下游规控模块做...

大数据 2024-03-26 人工智能

1243阅读

清华微软开源全新提示词压缩工具，长度骤降80%！GitHub怒砍3.1K星

在自然语言处理中，有很多信息其实是重复的。如果能将提示词进行有效地压缩，某种程度上也相当于扩大了模型支持上下文的长度。现有的信息熵方法是通过删除某些词或短语来减少这种冗余。然而，作为依据的信息熵仅仅考虑了文本的单向上下文，进而可能会遗漏对于压缩至关...

生成式AI 2024-03-25 人工智能

924阅读

微软新工具LLMLingua-2：可将 AI 提示压缩高达80%，节省时间和成本

微软研究发布了名为 LLMLingua-2的模型，用于任务不可知的提示压缩。该模型通过智能地去除长提示中的不必要词语或标记，同时保留关键信息，使得提示长度可减少至原长度的20%，从而降低成本和延迟。研究团队写道:“自然语言存在冗余，信息量不尽相同。” LL...

生成式AI 2024-03-25 人工智能

1071阅读

零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

物体姿态估计在许多现实世界应用中起到至关重要的作用，例如具身智能、机器人灵巧操作和增强现实等。在这一领域中，最先受到关注的任务是实例级别 6D 姿态估计，其需要关于目标物体的带标注数据进行模型训练，使深度模型具有物体特定性，无法迁移应用到新物体上。后来...

大数据 2024-03-25 人工智能

924阅读

LLaMA中SwiGLU的实现形式

LLaMA（Low-Level Machine Learning Architecture）是一种全新的机器学习架构，旨在提高模型的性能和效率。这种架构不仅注重模型的精度，更关注其在各种实际应用场景中的运行效率。在LLaMA中，SwiGLU作为一种新型的实...

AIGC 2024-03-24 人工智能

963阅读

UniPAD：一种通用的自动驾驶预训练模式

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解 UniPAD研究了一个关键问题：如何有效地利用大量未标记的3D点云数据进行自监督学习，以增强其在3D目标检测和语义分割等下游任务中的应用效率。这个问题之所以重要，是...

AIGC 2024-03-22 人工智能

968阅读

一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE

近年来，LLM 已经一统所有文本任务，展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力，其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务，目前...

生成式AI 2024-03-21 人工智能

898阅读

端到端大一统前夕？GenAD：LLM和轨迹规划全搞定

今天汽车人和大家分享一篇自动驾驶领域中第一个大规模视频预测模型。为了消除高成本数据收集的限制，并增强模型的泛化能力，从网络获取了大量数据，并将其与多样化和高质量的文本描述配对。由此产生的数据集累积了超过2000小时的驾驶视频，涵盖了世界各地具有多样化天气...

大数据 2024-03-20 人工智能

904阅读

降低AIGC总体疑似率的七大策略

随着人工智能技术的飞速发展，AIGC（人工智能生成内容）的应用越来越广泛。然而，随之而来的问题是AIGC的疑似率居高不下，这给人们带来了不少困惑和疑虑。为了解决这个问题，本文将探讨降低AIGC总体疑似率的七大策略。提高数据质量数据是训练人工智能模...

大数据 2024-03-20 人工智能

1202阅读

AI写作的疑似度：深陷迷雾的探索之旅

大家好，小发猫降重今天来聊聊AI写作的疑似度：深陷迷雾的探索之旅，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：标题：AI写作的疑似度：深陷迷雾的探索之旅在这个人工智能蓬勃发展的时代，AI...

生成式AI 2024-03-19 人工智能

813阅读

AI写作的疑似度：探索模糊界限与未来的挑战

大家好，小发猫降重今天来聊聊AI写作的疑似度：探索模糊界限与未来的挑战，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：标题：AI写作的疑似度：探索模糊界限与未来的挑战随着人工智能技术的飞速...

人工智能 2024-03-19 人工智能

822阅读

如何把大量物理知识塞给AI？EIT和北大团队提出「规则重要性」概念

深度学习模型因其能够从大量数据中学习潜在关系的能力而「彻底改变了科学研究领域」。然而，纯粹依赖数据驱动的模型逐渐暴露出其局限性，如过度依赖数据、泛化能力受限以及与物理现实的一致性问题。例如，美国OpenAI公司开发的文本到视频模型Sora因深刻理解事物...

大数据 2024-03-18 人工智能

854阅读

AI大模型控制红绿灯，港科大（广州）智慧交通新成果已开源

大模型“上路”，干起了交通信号控制（TSC）的活～模型名为LightGPT，以排队及不同区段快要接近信号灯的车辆对路口交通状况分析，进而确定最好的信号灯配置。该模型由香港科技大学（广州）的研究团队提出，其背后关键是一个名为LLMLight的框架。...

生成式AI 2024-03-18 人工智能

824阅读

别等OpenAI了，全球首个类Sora抢先开源！所有训练细节/模型权重全公开，成本仅1万美元

不久前OpenAI Sora以其惊人的视频生成效果迅速走红，在一众文生视频模型中突出重围，成为全球瞩目的焦点。继2周前推出成本直降46%的Sora训练推理复现流程后，Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sor...

AIGC 2024-03-18 人工智能

891阅读

没等来OpenAI，等来了Open-Sora全面开源

不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红，在一众文生视频模型中突出重围，成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后，Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模...

AIGC 2024-03-18 人工智能

941阅读