端到端第3页 - AIGC资讯

专为训练Llama 3，Meta 4.9万张H100集群细节公布

生成式大模型给人工智能领域带来了重大变革，人们在看到实现通用人工智能（AGI）希望的同时，训练、部署大模型的算力需求也越来越高。刚刚，Meta 宣布推出两个 24k GPU 集群（共 49152 个 H100），标志着 Meta 为人工智能的未来做出了...

生成式AI 2024-03-13 人工智能

794阅读

AIGC:语音克隆模型Bert-VITS2-2.3部署与实战

1 VITS2模型 1.1 摘要单阶段文本到语音模型最近被积极研究，其结果优于两阶段管道系统。以往的单阶段模型虽然取得了较大的进展，但在间歇性非自然性、计算效率、对音素转换依赖性强等方面仍有改进的空间。本文提出VITS2，一种单阶段的文本到语音模型...

大数据 2024-03-12 人工智能

1744阅读

CRM官网体验入口 AI图像处理3D建模神器免费在线使用地址

CRM是一个高保真的单图像到3D纹理网格的生成模型，它通过整合几何先验到网络设计中，能够从单个输入图像生成六个正交视图图像，然后利用卷积U-Net创建高分辨率的三平面（triplane）。CRM进一步使用Flexicubes作为几何表示，便于在纹理网格上进...

人工智能 2024-03-12 人工智能

873阅读

谷歌具身智能新研究：比RT-2优秀的RT-H来了

随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密，人工智能正在越来越多地走向现实世界，因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中，谷歌的「RT」系列机器人始终走在前沿（参见《大模型正在重构机器人，谷歌 Deepmind 这样...

人工智能 2024-03-11 人工智能

788阅读

AI绘画与虚拟人生成实践（三）：让虚拟形象动起来！照片生成说话的视频

书接上回，本篇的目的是结合上篇生成虚拟的女生形象，以及上一篇生成的关于介绍AI绘画领域的脚本，让生成的虚拟形象来念这段文案。先进入正题说明怎么来生成想要的动态视频。 1. Yanderify项目 Yanderify 教程来实际手把手操作一下这个项...

生成式AI 2024-03-10 人工智能

1616阅读

BsinCopilot：Java版端到端大语言模型开发框架

BsinCopilot是基于BsinPaaS开源框架构建的大语言模型应用SaaS服务，借鉴langchain的框架思想，引入 langchian4j组件，微前端微服务的架构设计，可快速助您构建和体验端到端的AI应用。基本概念概念说明...

人工智能 2024-03-09 人工智能

962阅读

开环端到端自动驾驶中自车状态是你所需要的一切吗？

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? 论文链接：https://arxiv.org/a...

AIGC 2024-03-07 人工智能

1023阅读

2024 年 AI 辅助研发趋势：从研发数字化到 AI + 开发工具 2.0，不止于 Copilot

在上一年里，已经有不少的企业在工具链上落地了生成式 AI，结合我们对于这些企业的分析，以及最近在国内的一些 “新技术” 趋势，诸如于鸿蒙原生应用的初步兴起。从这些案例与趋势中，我们也看到了一些新的可能方向。结合我们在 LLM as-Copilo...

AIGC 2024-03-06 人工智能

930阅读

马斯克打算为特斯拉量身定制一个ChatGPT

编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto） ChatGPT在互联网上引起轰动后不久，2022年12月，特斯拉的帕洛阿尔托总部也在进行类似的开发。该公司自动驾驶系统的工程师达瓦尔·施罗夫向首席执行官埃隆·马斯克提出了一个概念...

人工智能 2024-03-06 人工智能

804阅读

一个关于BEV车道线落地的点点滴滴

本文经自动驾驶之心公众号授权转载，转载请联系出处。 21年埋下了一颗种子看过BEV障碍物故事的同学应该清楚，我们组是在21年10月左右开始做BEV 障碍物的。那个时候不敢想着去做BEV 车道线，因为没有人力。但是我记得在12月左右的时候，我们面到了...

人工智能 2024-03-06 人工智能

866阅读

两张图2秒钟3D重建！这款AI工具火爆GitHub，网友：忘掉Sora

只需2张图片，无需测量任何额外数据—— 当当，一个完整的3D小熊就有了：这个名为DUSt3R的新工具，火得一塌糊涂，才上线没多久就登上GitHub热榜第二。有网友实测，拍两张照片，真的就重建出了他家的厨房，整个过程耗时不到2秒钟！（除了3D图，...

人工智能 2024-03-04 人工智能

879阅读

惊艳！！！特斯拉端到端演示视频分析

本文经自动驾驶之心公众号授权转载，转载请联系出处。外网有用户放了一段特斯拉FSD v12的视频，有人搬运到b站上了： https://www.bilibili.com/video/BV1Z6421M797www.bilibili.com/video/...

大数据 2024-03-04 人工智能

789阅读

人工智能如何影响汽车行业

汽车行业正在经历快速的技术变革，从传统机械转向电气化和自动驾驶。汽车已经发展成为复杂、可持续的系统，为乘客提供安全、数字化、互联且娱乐性的系统。该行业向软件定义汽车的转变要求汽车软件开发人员调整他们的方法。质量管理在数字基础设施中至关重要，要求在保持消...

大数据 2024-03-01 人工智能

829阅读

远超 IVF_FLAT、HNSW，ScaNN 索引算法赢在哪？

Faiss 实现的 ScaNN，又名 FastScan，它使用更小的 PQ 编码和相应的指令集，可以更为友好地访问 CPU 寄存器，展示出优秀的索引性能。 Milvus 从 2.3 版本开始，在 Knowhere 中支持了 ScaNN 算法，在各项 be...

人工智能 2024-02-28 人工智能

825阅读

直接干上车！DriveVLM：首个Orin部署的快慢双系统智驾大模型

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在目前自动驾驶领域，传统的感知（perception）-预测（prediction）-规划（planning）的常规端到端自动驾驶在处理常规场景时表现尚可，但在面对复...

AIGC 2024-02-28 人工智能

1381阅读

自动驾驶与轨迹预测看这一篇就够了！

本文经自动驾驶之心公众号授权转载，转载请联系出处。轨迹预测在自动驾驶中承担着重要的角色，自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据，预测车辆未来的行驶轨迹。作为自动驾驶的核心模块，轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈...

生成式AI 2024-02-27 人工智能

862阅读

VAD v2端到端SOTA | 远超DriveMLM等方法（地平线）

从大规模驾驶演示中学习类似人类的驾驶策略是很有前途的，但规划的不确定性和非确定性本质使得这一任务充满挑战。在这项工作中，为了应对不确定性问题，作者提出了VADv2，一个基于概率规划的端到端驾驶模型。VADv2以流方式输入多视角图像序列，将传感器数据转换为...

大数据 2024-02-27 人工智能

1287阅读

【AIGC】Diffusers:扩散模型的开发手册说明1

主要组件最先进的扩散管道 diffusion pipelines，只需几行代码即可进行推理。可交替使用的各种噪声调度器 noise schedulers，用于平衡生成速度和质量。预训练模型 models，可作为构建模块，并与调度程序结合使用，来...

AIGC 2024-02-26 人工智能

1234阅读

鱼眼相机与超声波传感器融合实现鸟瞰近场障碍物感知

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：https://browse.arxiv.org/pdf/2402.00637.pdf 视频链接：https://youtu.be/JmSLBBL9Ruo 本文介绍了鱼眼相机与超声传...

生成式AI 2024-02-23 人工智能

869阅读

EfficientViT-SAM：精度不变原地起飞！

作者提出了EfficientViT-SAM，这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时，作者用EfficientViT替换了沉重的图像编码器。在训练方面，首先从SAM-ViT-H图像编码器向EfficientV...

大数据 2024-02-23 人工智能

1068阅读

YOLOv8官网体验入口 AI计算机视觉目标检测模型免费在线使用地址

YOLOv8是YOLO系列目标检测模型的最新版本。它能够在图像或视频中准确快速地识别和定位多个对象，并实时跟踪它们的移动。相比之前版本，YOLOv8在检测速度和精确度上都有很大提升，同时支持多种额外的计算机视觉任务，如实例分割、姿态估计等。YOLOv8可通...

生成式AI 2024-02-21 人工智能

903阅读

英伟达NeMo框架在AI领域的综合应用与优势总结

一、NeMo 框架介绍 NVIDIA NeMo 是基于 PyTorch 和 PyTorch Lightning 的一个开源训练框架，源代码完全公开在 GitHub 上。NeMo 的主要目标是使 AI 开发者能够快速构建对话式 AI 模型并开发相关应用。...

人工智能 2024-02-21 人工智能

987阅读

Nomic AI 发布首个完全开源的长文本嵌入模型，超越 OpenAI Ada-002在各项基准测试中的表现

在自然语言处理（NLP）领域不断发展的背景下，理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力，特别是通过文本嵌入的发展。这些嵌入成为许多应用的基础，包括大型语言模型(LLMs 的检索增强生成和语义搜索。它们将句子或文档转换为低维向...

人工智能 2024-02-18 人工智能

1286阅读

Copilot 时代，开发者与 AI 如何相处？| 新程序员

【导读】AI 在软件开发领域的应用正在发生极大的演进，以 GitHub Copilot 为首，从单一的编程辅助，扩展到开发流程的各个环节。本文作者深入分析了 AI 辅助开发工具的演进，并提出，再争论 AI 是否会替代人类开发者的工作已经愈发没有意义，至关重...

生成式AI 2024-02-16 人工智能

931阅读

AI 将主导今年安卓和 iPhone 更新，但也带来严重的隐私新问题

今年安卓和 iPhone 的更新将以 AI 为主题，其中很大一部分来自谷歌。但这也给所有用户带来了一个严重的新警告，我们使用手机的方式将因此改变。把生成式 AI 集成到我们最常用的手机应用程序中，势必会比去年 ChatGPT 的推出造成更大影响。我...

AIGC 2024-02-13 人工智能

831阅读

端到端纯视觉！OpenAI押注的人形机器人献艺拜年了

大过年的，OpenAI投资的人形机器人，通过最新视频拜年了（doge）有俩人上来就表演了一个从货架取包裹，转身放进筐里: 镜头继续推进，旁边靠墙的两个机器人，在不停地将俄罗斯方块积木举起-丢下-再举起。另一边，充好电的机器人，温柔地拔掉插销，微微半...

人工智能 2024-02-11 人工智能

834阅读

2023 亚马逊云科技中国峰会技术解读：算力、数据、AI，全面支撑 AIGC 与云上创新

编辑 | 宋慧出品 | CSDN 云计算亚马逊云科技每年在中国的顶级会议——2023亚马逊云科技中国峰会已经圆满落幕，今年峰会聚焦在AIGC与全球化等方面的议题，而支撑这些产品与服务的，则是亚马逊云科技十多年以来所探索、创新、积累的技术实力。在...

生成式AI 2024-02-10 人工智能

954阅读

每周AI新闻（2024年第3周）Meta研发Llama 3 | 苹果Vision Pro预售 | 智谱AI发布GLM-4

我是陌小北，一个正在研究硅基生命的、有趣儿的碳基生命。每周日20:00，准时解读每周AI大事件。大厂动向【1】Meta研发Llama 3，构建开源AGI Meta公司CEO马克·扎克伯格（Mark Zuckerberg）=宣布公司将对两个关键A...

AIGC 2024-02-09 人工智能

951阅读

苹果展示 AI 新模型 MGIE，可一句话精修图片

2 月 8 日消息，相比较微软的风生水起，苹果公司在 AI 领域的布局显得低调很多，但这并不意味着苹果在该领域就没有丝毫建树。苹果公司近日发布了名为“MGIE”的新型开源人工智能模型，它可以根据自然语言指令编辑图像。图源：VentureBeat 与...

生成式AI 2024-02-08 人工智能

799阅读

香港金融科技周2023：AIGC重塑金融形态

10月31日，由香港财经事务及库务局与投资推广署主办的“香港金融科技周2023大湾区专场”盛大启幕。中国AI决策领先企业萨摩耶云科技集团创始人、董事长兼 CEO林建明受邀参加圆桌会议，与中国内地、香港以及全球金融科技行业顶尖人才、创新企业、监管机构和政府代...

生成式AI 2024-02-07 人工智能

789阅读

iPhone AI图像编辑P图app工具免费在线使用地址苹果MGIE开源模型官网体验入口

MGIE是一项由苹果开源的技术，利用多模态大型语言模型（MLLMs）生成图像编辑指令，通过端到端训练，捕捉视觉想象力并执行图像处理操作，使图像编辑更加智能、直观。点击前往MGIE官网体验入口 MGIE旨在满足以下需求人群： "用户可以通过自然语言直观地...

AIGC 2024-02-06 人工智能

999阅读

MGIE官网体验入口苹果多模态大语言模型AI图像编辑工具在线使用地址

MGIE是一项由苹果开源的技术，利用多模态大型语言模型（MLLMs）生成图像编辑指令，通过端到端训练，捕捉视觉想象力并执行图像处理操作，使图像编辑更加智能、直观。点击前往MGIE官网体验入口需求人群： "用户可以通过自然语言直观地描述图像编辑需求，如...

生成式AI 2024-02-05 人工智能

838阅读

罕见！苹果开源图片编辑神器MGIE，要上iPhone?

拍张照片，输入文字指令，手机就开始自动修图？这一神奇功能，来自苹果刚刚开源的图片编辑神器「MGIE」。把背景中的人移除在桌子上添加披萨最近一段时间，AI 在图片编辑这一应用上取得了不小的进展。一方面，在 LLM 的基础上，多模态大模型（MLL...

AIGC 2024-02-05 人工智能

915阅读

iPhone动嘴10秒P图！UCSB苹果全华人团队发布多模态MGIE，官宣开源人人可玩

几天前，库克在苹果电话会上证实，「今年晚些时候会发布生成式AI」。 ChatGPT掀起全球热潮之后，苹果也在悄悄发力AI，曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满了期待。 6月举办的WWDC上，这家曾霸占全球市值第一公司，将会宣布...

AIGC 2024-02-05 人工智能

842阅读

大模型真能解决一切吗？关于知识驱动自动驾驶的一些思考

本文经自动驾驶之心公众号授权转载，转载请联系出处。上个星期受邀在外面做了一次关于「知识驱动自动驾驶」的讲座，刚好借这个机会把之前我和团队的一些学术上的思考整理凝练了一下。感觉里面一些内容还是挺值得拿出来分享&讨论的，所以开这么个帖子把其中一些关...

AIGC 2024-02-05 人工智能

945阅读

首个环视世界模型DrivingDiffusion: BEV数据和仿真新思路！

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者的一些个人思考在自动驾驶领域，随着BEV-based子任务/端到端方案的发展，高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点，“高质量”可以解耦成三个方面：不同维度...

人工智能 2024-02-05 人工智能

1188阅读

流量工程将代码生成的准确率提高一倍：由19%提高至44%

一篇新论文的作者提出了一种“强化”代码生成的方法。代码生成是人工智能中一项越来越重要的能力。它指训练机器学习模型，基于对所需程序功能的自然语言描述自动生成计算机代码，并有许多潜在的应用，从将软件规格转换成实用代码、自动化后端开发到协助人类程序员，不一...

人工智能 2024-02-05 人工智能

929阅读

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

在定义语言模型时，通常会使用一种基本分词方法，把句子分为词（word）、子词（subword）或字符（character）。其中，子词分词法一直是最受欢迎的选择，因为它在训练效率和处理词汇表外单词的能力之间实现了自然的折中。然而，一些研究指出了子词分词法...

生成式AI 2024-02-04 人工智能

1088阅读

快速入门ChatGPT和AIGC：底层原理、热门工具、行业现状【我们能做什么】

最近大家热议的ChatGPT和AI绘画工具的底层技术原理是什么？是如何发展到现在的？有哪些应用场景、热门工具？AIGC产业上下游有哪些公司？作为普通用户，我们还能接触哪些应用AI技术打造的商业解决方案？…… 我们查阅了AIGC相关相关的调研报告和各类资料...

AIGC 2024-02-03 人工智能

1349阅读

RocketMQ Copilot 一款面向 Apache RocketMQ 的智能辅助运维系统

一、RocketMQ简介 ocketMQ是阿里巴巴研发的一款分布式消息中间件，后开源给Apache基金会，成为apache的顶级开源项目。它具有高性能、高可靠、高实时和分布式的特点。RocketMQ主要应用于解决应用耦合，消息分发，流量削锋等问题。...

人工智能 2024-02-02 人工智能

856阅读

【大语言模型】5分钟快速认识ChatGPT、Whisper、Transformer、GAN

5分钟快速认识ChatGPT、Whisper、Transformer、GAN 什么是ChatGPT? 什么是Whisper? 什么是Generative Pre-trained Transformer架构？什么是自然处理语言 NLP 的 Tr...

生成式AI 2024-02-02 人工智能

1053阅读

【思路合集】talking head generation+stable diffusion

1 以DiffusionVideoEditing为baseline：改进方向针对于自回归训练方式可能导致的漂移问题：训练时，在前一帧上引入小量的面部扭曲，模拟在生成过程中自然发生的扭曲。促使模型查看身份帧以进行修正。在像VoxCeleb或L...

人工智能 2024-02-01 人工智能

1014阅读

最强开源多模态生成模型MM-Interleaved：首创特征同步器

想象一下，AI 不仅会聊天，还长了「眼睛」，能看懂图片，甚至还会通过画画来表达自己！这意味着，你可以和它们谈天说地，分享图片或视频，它们也同样能用图文并茂的方式回应你。最近，上海人工智能实验室联合香港中文大学多媒体实验室（MMLab）、清华大学、商汤科...

AIGC 2024-02-01 人工智能

842阅读

揭秘NVIDIA大模型推理框架：TensorRT-LLM

一、TensorRT-LLM 的产品定位 TensorRT-LLM 是 NVIDIA 用于做 LLM（Large Language Model）的可扩展推理方案。该方案是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图，并借鉴了许多 Fa...

大数据 2024-02-01 人工智能

1451阅读

【深度学习】AIGC ，ControlNet 论文，原理，训练，部署，实战，教程（一）

论文：https://arxiv.53yu.com/pdf/2302.05543 代码：https://github.com/lllyasviel/ControlNet 得分几个博客完成这个事情的记录了，此篇是第一篇，摘录了一些论文内容。ControlN...

人工智能 2024-02-01 人工智能

1247阅读

微软OpenAI计划1亿美元投向人形机器人！网友纷纷喊话马斯克

微软、OpenAI开年被曝预将大笔资金砸向一家人形机器人初创公司。其中，微软计划掏出9500万美元，OpenAI跟投500万美元。彭博社消息称，这家公司本轮预计共要融资5亿美元，投前估值或将达到19亿美元。是什么吸引了他们？不妨先来看一下这家公司的...

AIGC 2024-01-31 人工智能

728阅读

多模态LLM多到看不过来？先看这26个SOTA模型吧

当前 AI 领域的关注重心正从大型语言模型（LLM）向多模态转移，于是乎，让 LLM 具备多模态能力的多模态大型语言模型（MM-LLM）就成了一个备受关注的研究主题。近日，腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布...

生成式AI 2024-01-31 人工智能

810阅读

近200+自动驾驶数据集全面调研！一览如何数据闭环全流程

写在前面&个人理解自动驾驶技术在硬件和深度学习方法的最新进展中迅速发展，并展现出令人期待的性能。高质量的数据集对于开发可靠的自动驾驶算法至关重要。先前的数据集调研试图回顾这些数据集，但要么集中在有限数量的数据集上，要么缺乏对数据集特征的详细调查...

生成式AI 2024-01-31 人工智能

1309阅读

百度交了份“大”作业：文心一言用户破1亿，累计37亿字文本创作，能力再升32%！...

金磊发自凹非寺量子位 | 公众号 QbitAI 今年国产大模型的最后一声枪响，属于百度：发布仅2个月，文心大模型4.0，能力又提升了32%。文心一言用户规模超过1个亿！这便是在深度学习“春晚”——WAV...

生成式AI 2024-01-31 人工智能

926阅读

【探索科技感知未来】文心一言大模型

【探索科技感知未来】文心大模型 ?本文介绍文心一言大模型是由中国科技巨头百度公司研发的一款大规模语言模型，其基于先进的深度学习技术和海量数据训练而成。这款大模型具备强大的自然语言处理能力，可以理解并生成自然语言，为用户提供自然、流畅的语言交...

大数据 2024-01-31 人工智能

1346阅读