-
详解Latte:去年底上线的全球首个开源文生视频DiT
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。 然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领...
-
Transformer技术的过去、现在与未来
2017年春季,八位谷歌研究人员发表了里程碑式论文《Attention is All You Need》,临近论文发表七周年,这篇论文及其介绍的Transformers架构已经成为AI领域的传奇。Transformers改变了从神经网络技术到生成类似外星...
-
OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!|八位作者最新专访
Q* Transformer作者中唯一去了OpenAI的那位,公开承认了: 他参与了Q*项目,是这项新技术的发明者之一。 这几天除了英伟达老黄组局把Transformer作者聚齐,他们中的几位还接受了连线杂志的采访,期间出了这么一个小插曲。 当记者试图询问...
-
通用文档理解新SOTA,多模态大模型TextMonkey来了
最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中,TextMonkey 处于国际领先地位,有潜力带来办公自动化、智慧教...
-
OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!
Transformer作者中唯一去了OpenAI的那位,公开承认了: 他参与了Q*项目,是这项新技术的发明者之一。 这几天除了英伟达老黄组局把Transformer作者聚齐,他们中的几位还接受了连线杂志的采访,期间出了这么一个小插曲。 当记者试图询问Lu...
-
【八股】2024春招八股复习笔记1(搜索推荐、AIGC)
【八股】2024春招八股复习笔记1(搜索推荐、AIGC) 文章目录 1、推荐系统 1.1 推荐系统流程 1.2 协同过滤 、 矩阵分解 1.3 逻辑回归 2、算法常识(应用算法) 2.1 重点复习 xgboost 2.2 大模型 t...
-
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
谷歌DeepMind的研究人员推出了一种面向3D环境的通用AI代理——SIMA。 SIMA无需访问游戏的源代码,也不需要定制的API。只需要输入图像和用户提供的简单自然语言文本指令,SIMA就能像人类玩家一样执行走路、跑步、建造、打开地图等各种游戏中的操作...
-
符尧大佬一作发文,仅改训练数据,就让LLaMa-2上下文长度扩展20倍!
引言:探索语言模型的长上下文能力 近日,谷歌推出了Gemini Pro 1.5,将上下文窗口长度扩展到100万个tokens,目前领先世界。而其他语言模型也正在不断探索长上下文能力,也就是模型处理和理解超出其训练时所见上下文长度的能力。例如,一个模型可能...
-
【UE5】离线AI聊天-接入LLAMA语言模型 教程
前言:LLAMA是一种神经网络模型,全称为Language Model with an Average Attention Mechanism(具有平均注意机制的语言模型)。它是一种用于自然语言处理任务的模型,特别适用于生成文本和回答问题。LLAMA模...
-
DualBEV:大幅超越BEVFormer、BEVDet4D,开卷!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致...
-
AI足球教练上岗利物浦,射门机会提高13%!来自DeepMind,网友:这不公平
AI足球教练登上Nature子刊,谷歌DeepMind与利物浦队合作三年打造: 如同AlphaGo颠覆围棋一样,改变了球队制定战术的方式。 像是进攻方把球传给谁更容易创造射门机会,防守方如何调整布阵……AI轻松设计出的高效战术与真实战术难以区分,并且人...
-
Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切
转自知乎:叫我Alonzo就好了 前言 背景——Sora和Stable Diffusion 3 近期,OpenAI和Stability两大AI巨头公司在同期分别发布了它们的新作品——Sora和Stable Diffusion 3。神奇的是,这...
-
全球首个基于大语言模型的自动驾驶语言控制模型
Arxiv论文链接:https://arxiv.org/abs/2312.03543项目主页:https://github.com/Petrichor625/Talk2car_CAVG 近年来,工业界和学术界都争先恐后地研发全自动驾驶汽车(AVs)。尽...
-
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元
不久前OpenAI Sora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。 继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sor...
-
新智元 | Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
本文来源公众号“新智元”,仅用于学术分享,侵权删,干货满满。 原文链接:Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3? 【新智元导读】Stability AI放出了号称能暴...
-
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
全球首个开源的类Sora架构视频生成模型,来了! 整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。 这就是刚刚发布的Open-Sora 1.0。 它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。 还能用航拍视角,展现悬崖海岸边,海水...
-
没等来OpenAI,等来了Open-Sora全面开源
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模...
-
进一步加速落地:压缩自动驾驶端到端运动规划模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving 论文链接:ht...
-
大模型的DenseNet时刻!DenseMamba:精度显著提升
本文经自动驾驶之心公众号授权转载,转载请联系出处。 随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型...
-
AIGC学习笔记——CLIP详解加推理
clip论文地址:https://arxiv.org/pdf/2103.00020.pdf clip代码地址:https://github.com/openai/CLIP 小辉问:能不能解释一下zero-shot? 小G答:零次学习(Zero...
-
万字带你了解ChatGLM
本文分享自华为云社区《【云驻共创】华为云之昇思MindSpore大模型专题(第二期)-第一课:ChatGLM》,作者: 愚公搬代码。 前言 1.昇思MindSpore 昇思MindSpore是华为公司推出的一款全场景AI计算框架。它提供了自动...
-
AIGC实战——GPT(Generative Pre-trained Transformer)
AIGC实战——GPT 0. 前言 1. GPT 简介 2. 葡萄酒评论数据集 3. 注意力机制 3.1 查询、键和值 3.2 多头注意力 3.3 因果掩码 4. Transformer 4.1 Transformer 块 4.2 位置编...
-
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型的诞生,它们基于 Transformer 架构,采用多...
-
AIGC启示录:深度解析AIGC技术的现代性与系统性的奇幻旅程
✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ ?? 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。? 希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。?...
-
CLRNet:一种用于自动驾驶车道检测的分层细化网络算法
车道是具有高级语义的交通标志,特别是在视觉导航系统中尤其重要。检测车道可以使许多应用受益,例如自动驾驶和高级驾驶员辅助系统(ADAS)中的视觉导航就是一个典型的应用,它可以帮助智能车辆更好地进行自车定位并更安全地行驶。 然而,车道检测拥有特定的局部模式,...
-
ADMap:抗干扰在线高精地图新思路
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大家好,很开心能够受邀来到自动驾驶之心分享我们的在线重建矢量化高精度地图的抗扰动方法ADMap。我们的代码已经发布在https://github.com/hht199...
-
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
Stability AI在发布了Stable Diffusion 3之后,今天公布了详细的技术报告。 论文深入分析了Stable Diffusion 3的核心技术——改进版的Diffusion模型和一个基于DiT的文生图全新架构! 报告地址: http...
-
DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
Transformer又又又被挑战了! 这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,——Hawk和Griffin。 论文地址:https://arxiv.org/abs/2402.19427 这种将门控线性RNN与局部注...
-
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。 除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移...
-
大模型的未来:如何推动AIGC技术的进一步发展
1.背景介绍 人工智能(AI 和大数据技术的发展已经进入了一个新的高潮,尤其是自然语言处理(NLP 和计算机视觉(CV 等领域的突破性进展。随着大模型(such as GPT-3, DALL-E, and CLIP 的出现,人工智能生成(AIGC...
-
字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM
随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。 来自字节和北大的一篇新论文在此时吸引关注: 文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。 具体来说,字节提出了一个名为MegaScale的生产系...
-
【文生视频】Diffusion Transformer:OpenAI Sora 原理、Stable Diffusion 3 同源技术
文生视频 Diffusion Transformer:Sora 核心架构、Stable Diffusion 3 同源技术 Sora 网络结构 提出背景 输入输出 生成流程 变换器的引入 Diffusion Transformer (DiT...
-
揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用
引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重要的结构——我们称之为“backbone”,正是这个强大的支...
-
LLaMA v1/2模型结构总览
LLaMA v1/2模型结构总览 孟繁续 目录 收起 结构 Group Query Attention(V2 only RMSNorm SwiGLU RoPE llama2 出来了,并且开源可商用,这下开源社区又要变天了。快速...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人...
-
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。 为什么 Sora...
-
AIGC报告:大模型改变开发及交互环境,处于高速迭代创新周期
今天分享的是AIGC系列深度研究报告:《AIGC报告:大模型改变开发及交互环境,处于高速迭代创新周期》。 (报告出品方:华安证券) 报告共计:64页 LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现 • 在“Tran...
-
Stable Diffusion原理详解
Stable Diffusion原理详解 最近AI图像生成异常火爆,听说鹅厂都开始用AI图像生成做前期设定了,小厂更是直接用AI替代了原画师的岗位。这一张张丰富细腻、风格各异、以假乱真的AI生成图像,背后离不开Stable Diffusion算法。 S...
-
Llama 2论文详解
摘要 Llama 2是一组经过预训练和微调的大语言模型,参数规模从70亿到700亿不等,其中,Llama 2-Chat是针对对话用例进行优化的微调模型。在大多数基准测试中优于开源chat模型,在人类评估中表现出色,特别是在有用性和安全性方面。因此,Lla...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人印象深刻的是,还...
-
Karpathy新视频又火了:从头构建GPT Tokenizer
技术大神卡帕西离职OpenAI以后,营业可谓相当积极啊。 这不,前脚新项目刚上线,后脚全新的教学视频又给大伙整出来了: 这次,是手把手教咱构建一个GPT Tokenizer(分词器),还是熟悉的时长(足足2小时13分钟)。 Ps. 上次讲课还是俩月前的...
-
大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩
为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。 尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限...
-
RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
在大模型内卷的同时,Transformer的地位也接连受到挑战。 近日,RWKV发布了Eagle 7B模型,基于最新的RWKV-v5架构。 Eagle 7B在多语言基准测试中,击败了所有的同级别模型,在单独的英语测试中,也和表现最好的模型基本打平。 同时...
-
基本概念:什么是ChatGPT和AIGC?
1.背景介绍 1. 背景介绍 自2012年的AlexNet成功地赢得了ImageNet Large Scale Visual Recognition Challenge,深度学习技术开始引以为奎。随着算法的不断发展和优化,深度学习技术已经应用...
-
LLMs之Llama2 70B:使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略
LLMs之Llama2 70B:使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略 目录 使用 PyTorch FSDP 微调 Llama 2 70B 引言 FSDP 工作流 使用的硬件 微调 LLa...
-
只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术
这是儿子寒假在家,我和他一起玩阿里通义千问后的一篇笔记。 通义千问有一个全民舞王的功能。选择一个舞蹈模版,然后上传一张人物全身照片,即可生成一段10秒钟左右的视频。 卡通人物的图片也行。 比如我用了弗利萨大王和沙鲁的图片: 点击立即生成按钮,...
-
LLaMA 入门指南
LLaMA 入门指南 LLaMA 入门指南 LLaMA的简介 LLaMA模型的主要结构 Transformer架构 多层自注意力层 前馈神经网络 Layer Normalization和残差连接 LLaMA模型的变体 Base版本 La...
-
Stable Diffusion InstantID 炸裂!只需要一张图就可以换脸 | 详细教程
最近AI换脸又火起来了, 小红书 InstantX 团队发布了一款最新的换脸技术 InstantID 和之前的主流的训练 lora 换脸不同,InstantID 只需要上传一张图就可以实现换脸以及姿势替换! 一 InstantID 介绍 I...
-
ChatGPT研究报告:AIGC带来新一轮范式转移
本文约4000字,目标是快速建立AIGC知识体系,含有大量的计算专业名词,建议阅读同时扩展搜索。 一、行业现状 1、概念界定 区别于PGC与UGC不同的,AIGC是利用人工智能技术自动生成内容的新型生产方式。 2、数据模...
-
上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务
本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,违者必究! Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-...