-
揭秘Stable Diffusion 3:当AI遇上艺术,创意无界限!
博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典! 《IDEA开发秘籍》 — 提升你的IDEA技能! 《100天精通鸿蒙》 — 从Web/...
-
两张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
只需2张图片,无需测量任何额外数据—— 当当,一个完整的3D小熊就有了: 这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。 有网友实测,拍两张照片,真的就重建出了他家的厨房,整个过程耗时不到2秒钟! (除了3D图,...
-
DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
Transformer又又又被挑战了! 这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,——Hawk和Griffin。 论文地址:https://arxiv.org/abs/2402.19427 这种将门控线性RNN与局部注...
-
从AI推理性能优化角度看LLaMA的模型结构和源码
本篇文章讲讲LLaMA的结构,已经有很多文章已经对LLaMA在一些结构上任务表现上做了一些解析,本文主要从优化的角度、实现kernel的角度解析一下LLaMA,读者事先对transformer的结构有基本认识最好。本文首发于我的公众号“AI不止算法”,文章...
-
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目...
-
北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应
重磅: 北大团队联合兔展发起了一项Sora复现计划——Open Sora。 框架、实现细节已出: 初始团队一共13人: 带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。 为什么发起这项计划? 因为资源有限,团队希望集结...
-
AIGC 为何能火爆全网,赋能智能时代?
Hi,大家好,我是半亩花海。2023年,人工智能新浪潮涌起,AIGC 火爆全网,不断赋能各大行业。从短视频平台上火爆的“AI 绘画”,到智能聊天软件 ChatGPT,都引起了大家的广泛关注。那么 AIGC 到底是什么?为什么如此引人关注?AIGC 能产生什...
-
Stable Diffusion 3重磅发布
刚不久,Stability AI发布了Stable Diffusion 3.0,这一版本采用了与备受瞩目的爆火Sora相同的DiT架构。通过这一更新,画面质量、文字渲染以及对复杂对象的理解能力都得到了显著提升。由于这些改进,先前的技术Midjourney和...
-
大模型的未来:如何推动AIGC技术的进一步发展
1.背景介绍 人工智能(AI 和大数据技术的发展已经进入了一个新的高潮,尤其是自然语言处理(NLP 和计算机视觉(CV 等领域的突破性进展。随着大模型(such as GPT-3, DALL-E, and CLIP 的出现,人工智能生成(AIGC...
-
用code去探索理解Llama架构的简单又实用的方法
除了白月光我们也需要朱砂痣 我最近也在反思,可能有时候算法和论文也不是每个读者都爱看,我也会在今后的文章中加点code或者debug模型的内容,也许还有一些好玩的应用demo,会提升这部分在文章类型中的比例 今天带着大家通过代码...
-
【AIGC大模型】Sora--首个大型视频生成模型
Sora--首个大型视频生成模型 胡锡进于2024年2月20日认为:台当局怂了 新的改变 世界模拟器 视觉数据转换 视频压缩 时空补丁(Spacetime Laten Patches) 视频生成扩展变压器 算法和模型架构 结语 胡锡...
-
前沿资讯!文心一言和ChatGPT最全对比!
文心一言和ChatGPT都是基于深度学习技术的自然语言处理模型,有各自的优势和使用场景,无法简单地比较 ChatGPT 和文心一言哪一个功能更强大,它们各自具有优势和局限性,需要根据具体需求进行选择,以下一些具体对比: 为方便观看,...
-
探索AI写作的无限可能:从困惑度到爆发度的奇妙旅程
大家好,小发猫降重今天来聊聊探索AI写作的无限可能:从困惑度到爆发度的奇妙旅程,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 探索AI写作的无限可能:从困惑度到爆发度的奇妙旅程 在AI技术日...
-
Stable Diffusion 3 强势来袭,从此将文字绘画出来不是难题!
介绍 Stability AI 刚发布 Stable Diffusion 3 模型进行公测。该模型采用 diffusion transformer 架构,显著提高了在多主题提示、图像质量和拼写能力方面的性能。 特点 spelling abili...
-
基于大型语言模型和向量数据库开发新闻推荐系统
译者 | 朱先忠 审校 | 重楼 近年来,随着诸如ChatGPT、Bard等生成式人工智能工具的发布,大型语言模型(LLM)在机器学习社区引起了全球热议。这些解决方案背后的核心思想之一是计算非结构化数据(如文本和图像)的数字表示,并找出这些表示之间的相似...
-
微软37页论文逆向工程Sora,得到了哪些结论?
追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora 是如何被 OpenAI 发掘出来的?未来又有哪些演进和应用方向? Sora 的技术报告披露了一些技术细节,但远远不足以窥其全貌。 在最近的一篇文章中,微软研究院和理海大学的研...
-
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
最近,OpenAI 视频生成模型 Sora 的爆火,给基于 Transformer 的扩散模型重新带来了一波热度,比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT(Diffusion Transf...
-
Stable Diffusion 3官网体验入口 文本到图像AI生成模型免费在线使用地址
Stable Diffusion 3是stability公司推出的新一代文本到图像生成AI模型,相比早期版本在多主体提示、图像质量和拼写能力等方面都有了极大提升。该模型采用了diffusion transformer架构和flow matching技术,参...
-
京东电商知识图谱与AIGC落地
导读 本文将分享如何将知识图谱应用到电商场景下的 AIGC。 文章将围绕下面五个方面进行分享: 1. 导言 2. 基于领域知识图谱的商品文案生成 3. 基于通用知识图谱的商品文案生成 4. 基于领域知识图谱的 LLM 5. 基于通用知识图谱的...
-
60行代码,从头开始构建GPT!最全实践指南来了
60行代码,从头开始构建GPT? 最近,一位开发者做了一个实践指南,用Numpy代码从头开始实现GPT。 你还可以将 OpenAI发布的GPT-2模型权重加载到构建的GPT中,并生成一些文本。 话不多说,直接开始构建GPT。 什么是GPT? GPT代...
-
【AIGC】AutoKeras 进行 RNN 循环神经网络训练
由于最近这些天都在人工审查之前的哪些问答数据,所以迟迟都没有更新 AutoKeras 的训练结果。现在那部分数据都已经整理好了,20w+ 的数据最后能够使用的高质量数据只剩下 2k+。这 2k+ 的数据已经经过数据校验并且对部分问题的提问方式和答案内容进行...
-
2024年自动驾驶标注行业是否会被世界模型所颠覆?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 1.数据标注面临的问题(特别是基于BEV 任务) 随着基于BEV transformer 任务的兴起,随之带来的是对数据的依赖变的越来越重,基于BEV 任务的标注也变得越来越重要。目前来看无论是2D-...
-
【文生视频】Diffusion Transformer:OpenAI Sora 原理、Stable Diffusion 3 同源技术
文生视频 Diffusion Transformer:Sora 核心架构、Stable Diffusion 3 同源技术 Sora 网络结构 提出背景 输入输出 生成流程 变换器的引入 Diffusion Transformer (DiT...
-
基本概念:什么是ChatGPT和AIGC
1.背景介绍 1. 背景介绍 自2012年的AlphaGo胜利以来,人工智能(AI 技术的进步速度逐年加快,尤其是自然语言处理(NLP 领域的突破性进展。ChatGPT和AIGC是近年来引起广泛关注的两个AI技术。本文将深入探讨这两个技术的核...
-
SORA技术报告快速解读——浅谈其AIGC积累的技术底蕴
SORA技术报告解读 文章目录 概要 SORA整体概要 关键性的技术方案解析 1. 视觉类型的特征嵌入和处理-video encoder 1.1 压缩视频的特征网络模型是什么? 1.2 如何处理不同分辨率的训练和推理问题? 2 Scalin...
-
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速
作为 2024 开年王炸,Sora 的出现树立了一个全新的追赶目标,每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。 根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Tr...
-
英伟达发布Nemotron-4:150亿参数通用大模型,目标单张A100/H100可跑
英伟达最新推出的Nemotron-4语言模型引起广泛关注。这一通用大模型拥有150亿参数,经过在8T token上的训练,在英语、多语言和编码任务中表现出色。具体而言,Nemotron-4在7个评估基准上的15B模型表现优异,超越同等参数规模的模型,甚至击...
-
中国如何复刻Sora,华人团队长文解构!996 OpenAI研究员:Sora是视频GPT-2时刻
今天,这张图在AI社区热转。 它列举了一众文生视频模型的诞生时间、架构和作者机构。 毫不意外,谷歌依然是视频模型开山之作的作者。不过如今AI视频的聚光灯,全被Sora抢去了。 同时,自曝996作息时间表的OpenAI研究员Jason Wei表示——...
-
微软6页论文爆火:三进制LLM,真香!
这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM,都将是1.58 bit的。 具体而言,这项研究提出的方法叫做BitNet b1.58,可以说是从大语言模型“根儿”上的参数下手。 将传统以16位浮点数(如FP16或BF16)形...
-
视频生成模型Sora的全面解析:从AI绘画、ViT到ViViT、DiT、VDT、NaViT、VideoPoet
前言 真没想到,距离视频生成上一轮的集中爆发(详见《Sora之前的视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0》 才过去三个月,没想OpenAI一出手,该领域又直接变天了 自打2.16日OpenAI发...
-
Stable Diffusion 3 发布,AI生图效果,再次到达全新里程碑!
AI生图效果,再次到达全新里程碑! Prompt:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark...
-
知名AI研究者深挖谷歌Gemma:参数不止70亿,设计原则很独特
就在几天前,开源大模型领域迎来了重磅新玩家:谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。 谷歌发布了包含两种权重规模的模型:Gemma 2B 和 Gemma...
-
AIGC专栏9——Scalable Diffusion Models with Transformers (DiT)结构解析
AIGC专栏9——Scalable Diffusion Models with Transformers (DiT)结构解析 学习前言 源码下载地址 网络构建 一、什么是Diffusion Transformer (DiT 二、DiT的组成...
-
Sora阴影之下,焦虑的中国AI
“跟不上的可能就要被淘汰了。”看到Sora演示视频后,从业10多年的动画制作师黄斌得出了这样的判断。 随着影视业失业潮呼声渐起,Sora的诞生也给中国AI行业带来了巨大的焦虑。 360集团创始人周鸿祎认为,Sora模型展现出了超越当前中国同类产品的性能...
-
LLaMA v1/2模型结构总览
LLaMA v1/2模型结构总览 孟繁续 目录 收起 结构 Group Query Attention(V2 only RMSNorm SwiGLU RoPE llama2 出来了,并且开源可商用,这下开源社区又要变天了。快速...
-
谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界
Sora 问世才不到两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。 刚刚,谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境(Genie,Generative Interactive Environments)。G...
-
猫头虎分析:如何利用ChatGPT及生成式AIGC提高工作效率
博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典! 《IDEA开发秘籍》 — 提升你的IDEA技能! 《100天精通鸿蒙》 — 从Web/...
-
自动驾驶与轨迹预测看这一篇就够了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈...
-
VAD v2端到端SOTA | 远超DriveMLM等方法(地平线)
从大规模驾驶演示中学习类似人类的驾驶策略是很有前途的,但规划的不确定性和非确定性本质使得这一任务充满挑战。在这项工作中,为了应对不确定性问题,作者提出了VADv2,一个基于概率规划的端到端驾驶模型。VADv2以流方式输入多视角图像序列,将传感器数据转换为...
-
端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动
「在移动设备上运行 LLM?可能需要 Meta 的一些技巧。」刚刚,图灵奖得主 Yann LeCun 在个人社交平台表示。 他所宣传的这项研究来自 Meta 最新论文《 MobileLLM: Optimizing Sub-billion Paramet...
-
【llm 微调code-llama 训练自己的数据集 一个小案例】
这也是一个通用的方案,使用peft微调LLM。 准备自己的数据集 根据情况改就行了,jsonl格式,三个字段:context, answer, question import pandas as pd import random import...
-
国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
2023 年年底,很多人都预测,未来一年将是视频生成快速发展的一年。但出人意料的是,农历春节刚过,OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心:国内外 AI 技术的差距是不是又拉大了? 根...
-
Stable Diffusion 3 Early Preview发布
2月22日,Stability AI 发布了 Stable Diffusion 3 early preview,这是一种开放权重的下一代图像合成模型。据报道,它继承了其前身,生成了详细的多主题图像,并提高了文本生成的质量和准确性。这一简短的公告并未附带公开...
-
详解各种LLM系列|(2)LLaMA 2模型架构、 预训练、SFT内容详解 (PART-1)
一、引言 Llama 2是Meta在LLaMA基础上升级的一系列从 7B到 70B 参数的大语言模型。Llama2 在各个榜单上精度全面超过 LLaMA1,Llama 2 作为开源界表现最好的模型之一,目前被广泛使用。 为了更深入地理解Llama 2的...
-
高质量论文中文翻译:Lag-Llama: 朝向基础模型的概率时间序列预测 Lag-Llama: Towards Foundation Models for Probabilistic Time S
Lag-Llama: 朝向基础模型的概率时间序列预测Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting 文章目录 摘要 介绍 我们的贡献...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人...
-
8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了
几天前,ICLR 2024 的最终接收结果出来了。 大家应该还记得,Mamba 被 ICLR 2024 大会 Decision Pending(待定)的消息在 1 月份引发过一波社区热议。 当时,多位领域内的研究者分析,Decision Pending...
-
人工智能和数据中心:为什么人工智能如此需要资源
到2023年底,对生成式人工智能将需要多少能源的任何预测都是不准确的。例如,头条新闻倾向于猜测“人工智能需要5倍、10倍、30倍的电力”和“足够运行10万户家庭的电力”等。与此同时,数据中心新闻等专业出版物的报道称,每机架的功率密度将上升到50kW或1...
-
生产式AI驱动的主机自动化测试
译者 | 陈峻 审校 | 重楼 将传统大型主机应用的代码和数据迁移到现代化技术架构上,被业界认为是企业信息系统数字化发展的关键阶段。尤其是在追求提高效率和可扩展性的过程中,这种转变通常会涉及到从传统的大型主机环境,转移到更加灵活的云计算、或是在内部部署方...
-
开源的Gemma 模型:Google 的语言奇迹,让你用指令调优、低秩适应和 Switch Transformer 玩转小模型
语言是人类最重要的交流工具,也是人工智能领域最具挑战性的研究对象。如何让机器理解和生成自然语言,是人工智能的一个核心问题,也是人类智能的一个重要标志。近年来随着深度学习的发展,语言模型(Language Model,LM)作为一种基于神经网络的自然语言处...