-
补齐Transformer规划短板,田渊栋团队的Searchformer火了
最近几年,基于 Transformer 的架构在多种任务上都表现卓越,吸引了世界的瞩目。使用这类架构搭配大量数据,得到的大型语言模型(LLM)等模型可以很好地泛化用于真实世界用例。 尽管有如此成功,但基于 Transformer 的架构和 LLM 依然难...
-
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。 为什么 Sora...
-
干货满满!大神Karpathy两小时AI大课文字版第一弹,全新工作流自动把视频转成文章
前段时间,AI大神Karpathy上线的AI大课,已经收获了全网15万次播放量。 当时还有网友表示,这2小时课程的含金量,相当于大学4年。 就在这几天,Karpathy又萌生了一个新的想法: 那便是,将2小时13分钟的「从头开始构建GPT分词器」的视频...
-
图像生成发展起源:从VAE、扩散模型DDPM、DETR到ViT、Swin transformer
前言 2018年我写过一篇博客,叫:《一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》,该文相当于梳理了2019年之前CV领域的典型视觉模型,比如 2014 R-CNN 2015 Fast R-CNN、...
-
超有趣的stable diffusion干货解读
超有趣的stable diffusion干货解读 智能时代:向量和模型构成一切(Vector and models rule it all ——朱嘉明 从老式电视机上的雪花引出diffusion Stable Diffusion 的组成 为...
-
Mac本地部署大模型体验AIGC能力
介绍 随着ChatGPT的横空出世,国内互联网大厂、创业公司纷纷加了AIGC赛道,不断推出各种大模型,而这些大模型由于规模庞大、结构复杂,往往包含了数十亿至数千亿的参数。这些模型在训练阶段,一般需要使用高效能的GPU集群训练数十天时间,在推理阶段,一般...
-
AIGC报告:大模型改变开发及交互环境,处于高速迭代创新周期
今天分享的是AIGC系列深度研究报告:《AIGC报告:大模型改变开发及交互环境,处于高速迭代创新周期》。 (报告出品方:华安证券) 报告共计:64页 LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现 • 在“Tran...
-
OpenAI和谷歌,AI对线中的飞驰人生
到底什么时候,才能有一家公司赶超OpenAI?这句问题,想必是过去一年多来,萦绕在不少读者心中的困惑。 如果全世界只有一家公司能赶超OpenAI,谷歌应该是最有希望的选手。 同为北美AI巨头的谷歌,与OpenAI有着相同的AGI目标、世界级的技术人才、全球...
-
AIGC专题:Sora开启AIGC新纪元,海外龙头AI指引乐观
今天分享的是电子系列深度研究报告:《AIGC专题:Sora开启AIGC新纪元,海外龙头AI指引乐观》。 (报告出品方:方正证券) 报告共计:30页 来源:人工智能学派 Sora、Gemini 1.5 Pro 相继发布,AIGC 新时代已至 大模型...
-
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。 与之前的版本相比,Stable Diffus...
-
目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机
继 2023 年 1 月 YOLOv8 正式发布一年多以后,YOLOv9 终于来了! 我们知道,YOLO 是一种基于图像全局信息进行预测的目标检测系统。自 2015 年 Joseph Redmon、Ali Farhadi 等人提出初代模型以来,领域内的研...
-
EfficientViT-SAM:精度不变原地起飞!
作者提出了EfficientViT-SAM,这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时,作者用EfficientViT替换了沉重的图像编码器。在训练方面,首先从SAM-ViT-H图像编码器向EfficientV...
-
Stable Diffusion 3突然发布!与Sora同架构,一切都更逼真了
足足酝酿一年之多,相比上一代一共进化了三大能力。 来,直接上效果! 首先,是开挂的文字渲染能力。 且看这黑板上的粉笔字: Go Big or Go Home (不成功便成仁),这个倒是杀气腾腾啊~ 路牌、公交灯牌的霓虹效果: 还有刺绣上“勾”得快要看...
-
Stable Diffusion原理详解
Stable Diffusion原理详解 最近AI图像生成异常火爆,听说鹅厂都开始用AI图像生成做前期设定了,小厂更是直接用AI替代了原画师的岗位。这一张张丰富细腻、风格各异、以假乱真的AI生成图像,背后离不开Stable Diffusion算法。 S...
-
Llama 2论文详解
摘要 Llama 2是一组经过预训练和微调的大语言模型,参数规模从70亿到700亿不等,其中,Llama 2-Chat是针对对话用例进行优化的微调模型。在大多数基准测试中优于开源chat模型,在人类评估中表现出色,特别是在有用性和安全性方面。因此,Lla...
-
开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用
刚刚,谷歌杀入开源大模型。 开源领域大模型,迎来了重磅新玩家。 谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。 Gemma 官方页面:https://ai.goo...
-
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向
在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。 现在,2024 年的第一个月已经过去...
-
【AI绘画】硬核解读Stable Diffusion(完整版) 小白必收藏!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 2022年可谓是AIGC(AI Generated Content)元年,上半年有文生图大模型DALL-E2和Sta...
-
Stable Diffusion WebUI 踩坑记录
文章目录 install Homebrew install python 3.10 clone stable diffusion web 设置 pip 国内源 install 如果 torch 安装有问题可以这样安装 Install GFPG...
-
谷歌开源Gemma,为端侧AI浇了桶油
2月21日,谷歌正式对外发布开源大模型Gemma。 这距离谷歌上一次大模型Gemini 1.5的发布,还不到一周的时间,事关大模型的竞争愈演愈烈。 2月15日,OpenAI发布Sora,Sora文生视频的能力,再度震惊整个行业。 彼时,就连此前在文生视...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人印象深刻的是,还...
-
关于 OpenAI Sora,你所应该了解的
Hello folks,我是 Luga,今天我们继续来聊一下人工智能(AI 生态领域相关的技术 - OpenAI Sora ,本文将继续聚焦在针对 OpenAI Sora 的技术进行剖析,使得大家能够了解 OpenAI Sora 实现机制以便更好地对...
-
单GPU就能压缩模型,性能不变参数少25%!微软提出模型稀疏化新方法
众所周知,对于大语言模型来说,规模越大,所需的算力越大,自然占用的资源也就越多。 研究人员于是乎把目光转到了这片领域,即模型的稀疏化(Sparsification)。 今天要介绍的SliceGPT,则可以实现模型的事后稀疏。也就是说,在一个模型训练完了以...
-
世界模拟器才是AGI终局,12态势预测!首席专家万字长文专业解读Sora里程碑
这几天反复看Sora的技术报告,以及各方对Sora的技术分析。 基本三个角度:惊呼强大功能,分析Sora(实现)大法,评估巨大冲击。 冲击方面,主要关注点在于对影视、短视频、娱乐等领域的影响。 但是,Sora改变AI认知方式,开启走向「世界模拟器」的史诗...
-
使用AIGC技术提高AI系统效率
1.背景介绍 在AI领域,提高系统效率是一个重要的目标。一种有效的方法是使用人工智能生成(AIGC 技术。在本文中,我们将探讨AIGC技术的背景、核心概念、算法原理、最佳实践、应用场景、工具和资源推荐,以及未来发展趋势和挑战。 1. 背景介绍...
-
出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT
虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续! 其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion...
-
Java ChatGPT和文心一言是两个不同的工具,它们有着不同的用途和功能
Java ChatGPT和文心一言是两个不同的工具,它们有着不同的用途和功能。 Java ChatGPT:ChatGPT是由OpenAI开发的自然语言处理模型,可以进行对话生成。它基于深度学习技术,通过训练大量的数据来理解用户输入并生成相应的回答。Ja...
-
深度学习在时间序列预测的总结和未来方向分析
2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transf...
-
运行LIama2得8400万元!最快AI推理芯片成本推算引热议
想实现史上最快大模型推理,得要1171万美元(8410万元)??? 同等项目下,使用英伟达GPU成本只需30万美元…… 关于最强AI芯片易主Groq,可能得让子弹再飞一会儿了。 这两天,Groq惊艳亮相。它以号称“性价比高英伟达100倍”的芯片,实现每秒...
-
Llama深入浅出
前方干货预警:这可能是你能够找到的最容易懂的最具实操性的学习开源LLM模型源码的教程。 本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼 。 并且训练它来实现一个有趣的实例:两数之和。 输入...
-
【AIGC】OpenAI推出王炸级模型sora,颠覆AI视频行业
文章目录 强烈推荐 前言 什么是OpenAI Sora? 工作原理: 算法原理: 应用场景展望 与其他视频生成模型相比有哪些优势和不足? 优点 缺点 总结 强烈推荐 专栏集锦 写在最后 强烈推荐 前些天发现了一个巨牛的人工智...
-
全网最全Stable Diffusion原理快速上手,模型结构、关键组件、训练预测方式!!!!
手把手教你入门绘图超强的AI绘画程序,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包(文末可获取) 【AIGC】Stable Diffusion的建模思想、训练预测方式快速 在这篇博客中,将会用机器学习入门级描...
-
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraf...
-
【AIGC】大语言模型
大型语言模型,也叫大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 什么是大型语言模型 大型语言模型(LLM)是指具有数千亿(甚至更多)参数的语言模型,它们是通过在大规模文本数...
-
大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩
为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。 尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限...
-
Meta、谷歌、特斯拉,竞争对手联合起来吐槽OpenAI!Sora不懂物理世界,它只是GPT3!
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 上周,OpenAI的第一个视频生成模型Sora在互联网上疯传。然而,与此同时,来自竞争对手公司的一批人工智能专家和研究人员迅速剖析和批评了Sora的Transformer模型,引...
-
GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况
众所周知,大型语言模型(LLM)的推理通常需要使用自回归采样,这个推理过程相当缓慢。为了解决这个问题,推测解码(Speculative Decoding)已经成为 LLM 推理的一种新型采样方法。这种方法在每个采样步骤中,会先预测几个可能的 token,...
-
SIMPL:用于自动驾驶的简单高效的多智能体运动预测基准
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving 论文链接...
-
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。 在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发...
-
100万token,一次能分析1小时YouTube视频,「大世界模型」火了
最近几天,我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。然而,这些刷屏无数的模型真的能很好...
-
Sora不懂物理世界,翻车神图全网爆笑!LeCun马斯克DeepMind大佬激辩世界模型
大火的Sora,让许多动画、影视行业的人大为恐慌。 不过,今天网上广为流传的这张图,让大家倒是放心了不少。 可以看到,在这个视频中,玻璃杯碎裂的方式十分诡异—— 它被抬到半空中时,桌子上就忽然出现了一滩平整的红色玻璃,随后玻璃杯被摔到桌子上,和这滩玻璃融...
-
RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
在大模型内卷的同时,Transformer的地位也接连受到挑战。 近日,RWKV发布了Eagle 7B模型,基于最新的RWKV-v5架构。 Eagle 7B在多语言基准测试中,击败了所有的同级别模型,在单独的英语测试中,也和表现最好的模型基本打平。 同时...
-
如何使用MyScale将知识库引入OpenAI的GPT
译者 | 李睿 审校 | 重楼 2023年11月6日,OpenAI公司对外发布了ChatGPT。在这个无代码平台上,专业(或业余 开发人员可以使用工具和提示构建定制的GPT或聊天机器人,有效地改变他们与OpenAI GPT的交互。以前的交互(LangCh...
-
研究:ChatGPT 的营养建议对非传染性疾病患者有限
一项最新研究发现,ChatGPT在处理患有多种非传染性疾病(NCDs)的患者的营养咨询方面存在一定的局限性,无法替代医疗专业人员的咨询。这项研究由意大利都灵的研究人员进行,他们利用由OpenAI开发的Chat Generative Pretrained T...
-
生成式人工智能(AIGC)之最全详解图解
生成式人工智能(AIGC)之最全详解图解 1. AIGC的发展历程 1.1 AIGC演化重要时间节点 AIGC发展历程图 OpenAI大语言模型发展进程 1.2技术推进路线 2.AIGC技术场景 2.1 技术场景 3.1AIGC相关应用...
-
训不动Mixtral,要不试试LLaMA-MoE?
深度学习自然语言处理 原创作者:cola 随着各种各样增强版LLaMA的出现,Mixture-of-Expert(MoE 类模型越来越受大家关注。而LLaMA-MoE正是基于LLaMA系列和SlimPajama的MoE模型。它显著的一个好处...
-
近期关于AIGC方面的学习笔记和思路整理
LLM 对于LLM,我现在重点关注在这几个方面: 开源且可私有化部署的代码生成模型: 因为大部分软件企业对于安全都很重视,文档、数据、代码一般都会尽量避免被泄露。所以很难使用类似Copilot或者OpenAI的Bito这种需要连到互联网上的服务。如果...
-
Copilot vs. ChatGPT: 探秘数字助手的神奇世界
欢迎来到这场Copilot和ChatGPT的奇妙对比之旅!在数字化的世界中,程序员和普通用户都受益于这两位强大的数字助手。本文将深入挖掘Copilot和ChatGPT的不同之处,解开它们神奇的工作原理,以及如何在工作和学习中最好地利用它们。 Copil...
-
扩展说明: 指令微调 Llama 2
这篇博客是一篇来自 Meta AI,关于指令微调 Llama 2 的扩展说明。旨在聚焦构建指令数据集,有了它,我们则可以使用自己的指令来微调 Llama 2 基础模型。 目标是构建一个能够基于输入内容来生成指令的模型。这么做背后的逻辑是,模型如此...
-
Stable Diffusion原理详解(附代码实现)
一、前言 回顾AI绘画的历史,GAN(Generative Adversarial Nets)是比较出众的一个。GAN的出现让AI绘画成为可能,当时GAN给AI绘画提供了一种新的思路,现在回顾当时的绘画可以算是相当粗糙。 gan-results....