-
别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元
不久前OpenAI Sora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。 继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sor...
-
新智元 | Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
本文来源公众号“新智元”,仅用于学术分享,侵权删,干货满满。 原文链接:Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3? 【新智元导读】Stability AI放出了号称能暴...
-
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
全球首个开源的类Sora架构视频生成模型,来了! 整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。 这就是刚刚发布的Open-Sora 1.0。 它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。 还能用航拍视角,展现悬崖海岸边,海水...
-
没等来OpenAI,等来了Open-Sora全面开源
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模...
-
进一步加速落地:压缩自动驾驶端到端运动规划模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving 论文链接:ht...
-
大模型的DenseNet时刻!DenseMamba:精度显著提升
本文经自动驾驶之心公众号授权转载,转载请联系出处。 随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型...
-
AIGC学习笔记——CLIP详解加推理
clip论文地址:https://arxiv.org/pdf/2103.00020.pdf clip代码地址:https://github.com/openai/CLIP 小辉问:能不能解释一下zero-shot? 小G答:零次学习(Zero...
-
万字带你了解ChatGLM
本文分享自华为云社区《【云驻共创】华为云之昇思MindSpore大模型专题(第二期)-第一课:ChatGLM》,作者: 愚公搬代码。 前言 1.昇思MindSpore 昇思MindSpore是华为公司推出的一款全场景AI计算框架。它提供了自动...
-
AIGC实战——GPT(Generative Pre-trained Transformer)
AIGC实战——GPT 0. 前言 1. GPT 简介 2. 葡萄酒评论数据集 3. 注意力机制 3.1 查询、键和值 3.2 多头注意力 3.3 因果掩码 4. Transformer 4.1 Transformer 块 4.2 位置编...
-
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型的诞生,它们基于 Transformer 架构,采用多...
-
AIGC启示录:深度解析AIGC技术的现代性与系统性的奇幻旅程
✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ ?? 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。? 希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。?...
-
CLRNet:一种用于自动驾驶车道检测的分层细化网络算法
车道是具有高级语义的交通标志,特别是在视觉导航系统中尤其重要。检测车道可以使许多应用受益,例如自动驾驶和高级驾驶员辅助系统(ADAS)中的视觉导航就是一个典型的应用,它可以帮助智能车辆更好地进行自车定位并更安全地行驶。 然而,车道检测拥有特定的局部模式,...
-
ADMap:抗干扰在线高精地图新思路
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大家好,很开心能够受邀来到自动驾驶之心分享我们的在线重建矢量化高精度地图的抗扰动方法ADMap。我们的代码已经发布在https://github.com/hht199...
-
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
Stability AI在发布了Stable Diffusion 3之后,今天公布了详细的技术报告。 论文深入分析了Stable Diffusion 3的核心技术——改进版的Diffusion模型和一个基于DiT的文生图全新架构! 报告地址: http...
-
DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
Transformer又又又被挑战了! 这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,——Hawk和Griffin。 论文地址:https://arxiv.org/abs/2402.19427 这种将门控线性RNN与局部注...
-
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。 除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移...
-
大模型的未来:如何推动AIGC技术的进一步发展
1.背景介绍 人工智能(AI 和大数据技术的发展已经进入了一个新的高潮,尤其是自然语言处理(NLP 和计算机视觉(CV 等领域的突破性进展。随着大模型(such as GPT-3, DALL-E, and CLIP 的出现,人工智能生成(AIGC...
-
字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM
随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。 来自字节和北大的一篇新论文在此时吸引关注: 文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。 具体来说,字节提出了一个名为MegaScale的生产系...
-
【文生视频】Diffusion Transformer:OpenAI Sora 原理、Stable Diffusion 3 同源技术
文生视频 Diffusion Transformer:Sora 核心架构、Stable Diffusion 3 同源技术 Sora 网络结构 提出背景 输入输出 生成流程 变换器的引入 Diffusion Transformer (DiT...
-
揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用
引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重要的结构——我们称之为“backbone”,正是这个强大的支...
-
LLaMA v1/2模型结构总览
LLaMA v1/2模型结构总览 孟繁续 目录 收起 结构 Group Query Attention(V2 only RMSNorm SwiGLU RoPE llama2 出来了,并且开源可商用,这下开源社区又要变天了。快速...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人...
-
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。 为什么 Sora...
-
AIGC报告:大模型改变开发及交互环境,处于高速迭代创新周期
今天分享的是AIGC系列深度研究报告:《AIGC报告:大模型改变开发及交互环境,处于高速迭代创新周期》。 (报告出品方:华安证券) 报告共计:64页 LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现 • 在“Tran...
-
Stable Diffusion原理详解
Stable Diffusion原理详解 最近AI图像生成异常火爆,听说鹅厂都开始用AI图像生成做前期设定了,小厂更是直接用AI替代了原画师的岗位。这一张张丰富细腻、风格各异、以假乱真的AI生成图像,背后离不开Stable Diffusion算法。 S...
-
Llama 2论文详解
摘要 Llama 2是一组经过预训练和微调的大语言模型,参数规模从70亿到700亿不等,其中,Llama 2-Chat是针对对话用例进行优化的微调模型。在大多数基准测试中优于开源chat模型,在人类评估中表现出色,特别是在有用性和安全性方面。因此,Lla...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人印象深刻的是,还...
-
Karpathy新视频又火了:从头构建GPT Tokenizer
技术大神卡帕西离职OpenAI以后,营业可谓相当积极啊。 这不,前脚新项目刚上线,后脚全新的教学视频又给大伙整出来了: 这次,是手把手教咱构建一个GPT Tokenizer(分词器),还是熟悉的时长(足足2小时13分钟)。 Ps. 上次讲课还是俩月前的...
-
大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩
为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。 尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限...
-
RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
在大模型内卷的同时,Transformer的地位也接连受到挑战。 近日,RWKV发布了Eagle 7B模型,基于最新的RWKV-v5架构。 Eagle 7B在多语言基准测试中,击败了所有的同级别模型,在单独的英语测试中,也和表现最好的模型基本打平。 同时...
-
基本概念:什么是ChatGPT和AIGC?
1.背景介绍 1. 背景介绍 自2012年的AlexNet成功地赢得了ImageNet Large Scale Visual Recognition Challenge,深度学习技术开始引以为奎。随着算法的不断发展和优化,深度学习技术已经应用...
-
LLMs之Llama2 70B:使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略
LLMs之Llama2 70B:使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略 目录 使用 PyTorch FSDP 微调 Llama 2 70B 引言 FSDP 工作流 使用的硬件 微调 LLa...
-
只需任意一张人物图片,就可以生成该人物的科目三舞蹈视频 - AIGC 中的 Image-to-Video 技术
这是儿子寒假在家,我和他一起玩阿里通义千问后的一篇笔记。 通义千问有一个全民舞王的功能。选择一个舞蹈模版,然后上传一张人物全身照片,即可生成一段10秒钟左右的视频。 卡通人物的图片也行。 比如我用了弗利萨大王和沙鲁的图片: 点击立即生成按钮,...
-
LLaMA 入门指南
LLaMA 入门指南 LLaMA 入门指南 LLaMA的简介 LLaMA模型的主要结构 Transformer架构 多层自注意力层 前馈神经网络 Layer Normalization和残差连接 LLaMA模型的变体 Base版本 La...
-
Stable Diffusion InstantID 炸裂!只需要一张图就可以换脸 | 详细教程
最近AI换脸又火起来了, 小红书 InstantX 团队发布了一款最新的换脸技术 InstantID 和之前的主流的训练 lora 换脸不同,InstantID 只需要上传一张图就可以实现换脸以及姿势替换! 一 InstantID 介绍 I...
-
ChatGPT研究报告:AIGC带来新一轮范式转移
本文约4000字,目标是快速建立AIGC知识体系,含有大量的计算专业名词,建议阅读同时扩展搜索。 一、行业现状 1、概念界定 区别于PGC与UGC不同的,AIGC是利用人工智能技术自动生成内容的新型生产方式。 2、数据模...
-
上海人工智能实验室发布LLaMA-Adapter | 如何1小时训练你的多模态大模型用于下游任务
本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,违者必究! Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-...
-
用通俗易懂的方式讲解:十分钟读懂 Stable Diffusion 运行原理
AIGC 热潮正猛烈地席卷开来,可以说 Stable Diffusion 开源发布把 AI 图像生成提高了全新高度,特别是 ControlNet 和 T2I-Adapter 控制模块的提出进一步提高生成可控性,也在逐渐改变一部分行业的生产模式。惊艳其出色表...
-
AIGC:人工智能生成技术的新兴领域
1.背景介绍 1. 背景介绍 人工智能生成技术(AIGC 是一种利用机器学习和自然语言处理等技术来自动生成自然语言文本或其他形式的内容的技术。这种技术在近年来取得了显著的进展,为各种应用场景提供了强大的支持。本文将从背景、核心概念、算法原理、...
-
AI绘画Stable Diffusion原理之扩散模型DDPM
前言 传送门: stable diffusion:Git|论文 stable-diffusion-webui:Git Google Colab Notebook部署stable-diffusion-webui:Git kaggle...
-
Whisper 整体架构图
Attention 注意力机制模块,兼容自注意力和交叉注意力。 AttentionBlock Transformer 模块,包含一个自注意力,一个交叉注意力(可选)和一个 MLP 模块。 AudioEncoder+TextDeco...
-
语言模型大战:GPT、Bard与文心一言,谁才是王者?
如何对GPT-3.5、GPT-4、Bard、文心一言、通义千问的水平进行排序? 在聊技术原理之前我们来先看看几个产品的团队背景 一、团队背景 1.1、ChatGPT ChatGPT团队的成员大多具有计算机科学、人工智能、自然语言处理、机器学...
-
深入探索 Stable Diffusion:AI图像创新的新纪元
深入探索 Stable Diffusion:AI图像创新的新纪元 介绍 Stable Diffusion 的核心功能和应用场景 Stable Diffusion 架构解析 深入 Stable Diffusion 的关键组件 变分自编码器(VA...
-
chatgpt和文心一言哪个更好用
ChatGPT和文心一言都是近年来备受关注的人工智能语言模型。它们在智能回复、语言准确性、知识库丰富度等方面都有着较高的表现。然而,它们各自也有自己的特点和优势。在本文中,我们将从这几个方面对这两个模型进行比较,以帮助您更好地了解它们的特点和优劣。 一、...
-
2023-12-12 AIGC-AI工具的基本工作原理
摘要: 2023-12-12 AIGC-AI工具的基本工作原理 AI工具的基本工作原理 AI工具的基本工作原理涉及到一系列复杂的技术和算法。这些原理可以根据不同类型的AI工具进行概括,包括机器学习、自然语言处理、图像识别等。以下是一些关键的A...
-
首个环视世界模型DrivingDiffusion: BEV数据和仿真新思路!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者的一些个人思考 在自动驾驶领域,随着BEV-based子任务/端到端方案的发展,高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点,“高质量”可以解耦成三个方面: 不同维度...
-
登Nature子刊,滑铁卢大学团队评论「量子计算机+大语言模型」当下与未来
模拟当今量子计算设备的一个关键挑战,是学习和编码量子比特之间发生的复杂关联的能力。基于机器学习语言模型的新兴技术已经显示出学习量子态的独特能力。 近日,加拿大滑铁卢大学的研究人员在《Nature Computational Science》发表题为《La...
-
从零开始:了解ChatGPT和AIGC基础
1.背景介绍 1. 背景介绍 自2012年的AlexNet在ImageNet大赛中取得卓越成绩以来,深度学习技术已经成为人工智能领域的重要技术。随着算力的提升和模型的优化,深度学习技术已经取得了巨大的成功,应用于图像识别、自然语言处理、语音识...
-
DALL-E 系列:AI绘画背后的惊人真相!!【1个离奇内幕、3个意想不到、5大秘密揭示】
DALL-E 系列:AI绘图原理,根据用户给出的描述,生成与描述相匹配的图像 DALL-E 1 dVAE Transformer DALL-E 2 CLIP 先验 prior decoder(image) DALL-E 3...
-
【AIGC-图片生成视频系列-5】I2V-Adapter:一种用于视频扩散模型的通用图像生成视频适配器
目录 一. 项目与贡献概述 二. 方法详解 a. 整体框架图 b. 帧相似性先验 三. 一般化图像生成动画结果 四. 基于个性化 T2I 模型的动画结果 五. 结合ControlNet动画结果 六. 项目论文和代码 七. 个人思考与总结...