-
【AIGC】IP-Adapter:文本兼容图像提示适配器,用于文本到图像扩散模型
前言 IPAdapter能够通过图像给Stable Diffusion模型以内容提示,让其生成参考该图像画风,可以免去Lora的训练,达到参考画风人物的生成效果。 摘要 通过文本提示词生成的图像,往往需要设置复杂的提示...
-
【生成模型】Stable Diffusion原理+代码
文章目录 前言 一、Latent space 二、AutoEncoder 和 VAE 1.AutoEncoder: 2.VAE: 三、Diffusion扩散模型 1.前向过程 2.逆向过程 四、多模态 cross attention 五...
-
互联网新时代要来了(二)什么是AIGC?
什么是AIGC? 最近,又火了一个词“**AIGC”**2022年被称为是AIGC元年。那么我们敬请期待,AIGC为我们迎接人工智能的下一个时代。 TIPS:内容来自百度百科、知乎、腾讯、《AIGC白皮书》等网页 什么是AIGC? 1...
-
元象开源大模型XVERSE-Long-256K 支持输入25万汉字
元象发布了全球首个上下文窗口长度为256K 的开源大模型 XVERSE-Long-256K,支持输入25万汉字,无条件免费商用。 该模型填补了开源生态空白,与元象之前的大模型组成了高性能全家桶。XVERSE-Long-256K 在评测中表现出色,超越了其他...
-
广义人工智能时代:通往通用人工智能(AGI)之路
人工智能(AI 将于2024年进一步改进,大型语言模型有望进一步发展。 2023年对于人工智能和生成式人工智能来说是激动人心的一年,特别是那些采用大型语言模型(LLM 架构的人工智能,比如来自开放人工智能(GPT 4 、Anthropic(Claud...
-
AI:你总要高清视频,它来了
Magnific 图像超分 & 增强工具还正在火热体验中,它强大的图像升频与再创能力收获一致好评。现在,视频领域也有了自己的 Magnific。 拍摄的街道视频一片模糊,仿佛高度近视没戴眼镜一样: 与之相比,下面的视频清晰度高了很多: 视频画...
-
RoboFusion:通过SAM实现稳健的多模态3D检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2401.03907.pdf 多模态3D检测器致力于探索安全可靠的自动驾驶感知系统。然而,尽管在干净的基准数据集上实现了最先进的(SOTA)性能,...
-
五种资源类别,如何提高大语言模型的资源效率,超详细综述来了
近年来,大型语言模型(LLM)如 OpenAI 的 GPT-3 在人工智能领域取得了显著进展。这些模型,具有庞大的参数量(例如 1750 亿个参数),在复杂度和能力上实现了飞跃。随着 LLM 的发展趋势朝着不断增大的模型规模前进,这些模型在从智能聊天机器...
-
如何高效部署大模型?CMU最新万字综述纵览LLM推理MLSys优化技术
在人工智能(AI)的快速发展背景下,大语言模型(LLMs)凭借其在语言相关任务上的杰出表现,已成为 AI 领域的重要推动力。然而,随着这些模型在各种应用中的普及,它们的复杂性和规模也为其部署和服务带来了前所未有的挑战。LLM 部署和服务面临着密集的计算强...
-
即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了
图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一...
-
【计算机视觉 | 目标检测】术语理解9:AIGC的理解,对比学习,解码器,Mask解码器,耦合蒸馏,半耦合,图像编码器和组合解码器的耦合优化
文章目录 一、AIGC的理解 二、对比学习 三、解码器 四、Mask解码器 五、耦合蒸馏 六、半耦合 七、图像编码器和组合解码器的耦合优化 一、AIGC的理解 AIGC指的是使用人工智能技术自动生成的各类数字内容,包括文本、图像、...
-
大模型相关技术综述
多模态大模型&大模型训练语料持续迭代 已经开始整理多模态-视觉部分: 主要分为一下几块 多模态信息压缩模型(clip、vit、swiT) 生成模型(vae、gan、flow、ddpm、sde... 其它多模态大模型(语音...
-
打破信息差!一款让人惊艳的大模型3D可视化工具!
近日,一位来自新西兰的小哥Brendan Bycroft在技术圈掀起了一股热潮。他创作的一项名为大模型3D可视化的项目,不仅登上了Hacker News的榜首,而且其震撼的效果更是让人瞠目结舌。通过这个项目,你将在短短几秒钟内完全理解LLM(Large...
-
小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值
大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。 在 AAAI 2...
-
简单易懂Stable Diffusion运行原理 都直接喂到你嘴里了 还不快点接着
**Stable Diffusion无疑是最近最火的AI绘画工具之一,所以本期给大家带来了全新Stable Diffusion 保姆级教程资料包(文末可获取)一 背景介绍 AI 绘画作为 AIGC(人工智能创作内容)的一个应用方向,它绝对是 2022 年以...
-
Colossal-AI团队开源了SwiftInfer 大模型无限流式输入推理飙升46%
近日,国产开源项目SwiftInfer实现了无限流式输入推理,成功提升了大模型推理性能46%。这是一个重大突破,可以为多轮对话场景提供高效可靠的落地方案。 它采用了attention sink注意力机制、窗口注意力优化、KV Cache机制优化等方法,Sw...
-
四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍! 而且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。 有了这项技术,大模型(LargeLM)就能摇身一变,成为LongLM。 近日,来自得克萨斯农...
-
AIGC之文本内容生成概述(下)——Transformer
在上一篇文章中,我们一口气介绍了LSTM、Word2Vec、GloVe、ELMo等四种模型的技术发展,以及每种模型的优缺点与应用场景,全文超过一万字,显得冗长且繁杂,在下文部分我们将分开介绍Transformer、BERT、GPT1/GPT2/GPT3/C...
-
400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
22倍加速还不够,再来提升46%,而且方法直接开源! 这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。 StreamingLLM可以在不牺牲生成效果、推理速度的前提下,实现多轮对话共400万个token,22.2倍推理速度提升。 该项...
-
大模型无限流式输入推理飙升46%!国产开源加速「全家桶」,打破多轮对话长度限制
在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共400万个token的流式输入,22.2倍的推理速度提升...
-
AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了
近年来,大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展,基于深度学习技术能够理解和生成复杂的文本内容。然而,将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态...
-
告别逐一标注,一个提示实现批量图片分割,高效又准确
Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一...
-
AI人工智能大模型讲师叶梓《基于人工智能的内容生成(AIGC)理论与实践》培训提纲
【课程简介】 本课程介绍了chatGPT相关模型的具体案例实践,通过实操更好的掌握chatGPT的概念与应用场景,可以作为chatGPT领域学习者的入门到进阶级课程。 【课程时长】 1天(6小时/天) 【课程对象】 理工科本...
-
深入浅出讲解Stable Diffusion原理,新手也能看明白
说明 最近一段时间对多模态很感兴趣,尤其是Stable Diffusion,安装了环境,圆了自己艺术家的梦想。看了这方面的一些论文,也给人讲过一些这方面的原理,写了一些文章,具体可以参考我的文章: 北方的郎:图文匹配:Clip模型介绍 北方的郎:VQ...
-
万字长文谈自动驾驶BEV感知
本文经自动驾驶之心公众号授权转载,转载请联系出处。 prologue 这有可能是更的最长的文章系列了,先说为什么,一方面是看到分割大模型对小模型的提升效果需要时间,另一方面是之前对自动驾驶的BEV算法做了很长时间的预研,自己也应该好好梳理一下了。 (很...
-
一个评测模型+10个问题,摸清盘古、通义千问、文心一言、ChatGPT的“家底”!...
数据智能产业创新服务媒体 ——聚焦数智 · 改变商业 毫无疑问,全球已经在进行大模型的军备竞赛了,“有头有脸”的科技巨头都不会缺席。昨天阿里巴巴内测了通义千问,今天华为公布了盘古大模型的最新进展。不久前百度公布了文心一言...
-
谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫,连甩三连弹开打
火爆全网的斯坦福炒虾机器人,一天之内人气暴涨。 毕竟这样能炒菜能洗碗的全能机器人,谁不想带一个回家,把自己从家务中解放出来呢! 据说,这个项目是斯坦福华人团队花了三个月的时间做出来的。 今天,团队直接放出了更多细节。 这个机器人的技能多种多样,令人眼...
-
图解tinyBERT模型——BERT模型压缩精华
译者 | 朱先忠 审校 | 重楼 简介 近年来,大型语言模型的发展突飞猛进。BERT成为最受欢迎和最有效的模型之一,可以高精度地解决各种自然语言处理(NLP)任务。继BERT模型之后,一组其他的模型也先后出现并各自展示出优秀的性能。 不难看到一个明显趋势...
-
微软官方 Copilot AI 编程训练营第一天精华总结
阿七参加的微软官方组织的 Copilot AI 编程训练营开始了,这是第一天。 GitHub Copilot 官方统计,使用 GitHub Copilot 的开发者基本上能极大的提升编码效率、减少重复性代码编码时间且能更加专注于主线任务。 不管这个...
-
Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%
最近几年发布的AI模型,如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构,但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势,这一特性严重限制了Transformer在长序列下的应用,例如无法一次性处理一...
-
微软推出AI助手Copilot的正式版本;ChatGPT:七位研究人员分享他们的观点
? AI新闻 ? 微软推出AI助手Copilot的正式版本 摘要:微软宣布其AI助手Copilot正式上线,此前Copilot的预览版已成为很多用户的日常AI伴侣。此次上线后,Copilot将继续提供AI驱动的网络聊天体验,并具备商业数据保护功能,...
-
一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long
前言 关于位置编码和RoPE 应用广泛,是很多大模型使用的一种位置编码方式,包括且不限于LLaMA、baichuan、ChatGLM等等 我之前在本博客中的另外两篇文章中有阐述过(一篇是关于LLaMA解读的,一篇是关于transformer从零实现...
-
LLaMA, ChatGLM, BLOOM的参数高效微调实践
作者:回旋托马斯x(腾讯NLP算法工程师) 项目地址:https://zhuanlan.zhihu.com/p/635710004 1. 开源基座模型对比 大语言模型的训练分为两个阶段: (1)在海量文本语料上的无监督预训练,学习通用的语义表...
-
stable diffusion中的u net
Stable Diffusion 包含几个核心的组件: 一个文本编码器(在 Stable Diffusion 中使用 CLIP 的 ViT-L/14 的文本编码器),用于将用户输入的 Prompt 文本转化成 text embedding; 一个 Im...
-
深度学习实战29-AIGC项目:利用GPT-2(CPU环境)进行文本续写与生成歌词任务
大家好,我是微学AI,今天给大家介绍一下深度学习实战29-AIGC项目:利用GPT-2(CPU环境 进行文本续写与生成歌词任务。在大家没有GPU算力的情况,大模型可能玩不动,推理速度慢,那么我们怎么才能跑去生成式的模型呢,我们可以试一下GPT-2完成一些简...
-
谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构
在大模型领域,一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。 这个挑战者就是一项名为「Mamba」的研究,其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,Mamba-3B 模...
-
Midjourney V6 引爆社交媒体,AI图像与照片的差别消失;LangChain的2023AI发展状况总结
? AI新闻 ? Midjourney V6 引爆社交媒体,AI图像与照片的差别消失 摘要:Midjourney V6 第二次社区评价震惊网友,神图细节逼真,光影效果逆天,皮肤质感细腻,已超越昨日版本。V6即将上线,预计在圣诞节前发布。其出图质量让...
-
超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文:Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers 链接:https://arxiv.org/pd...
-
LLaMa、Qwen、ChatGLM、ChatGLM2的区别
LLaMa、Qwen、ChatGLM、ChatGLM2的区别 以下比较的前提是首先和BERT(transfomer 的对比 感谢帮忙给我github repository的star,更多最新模型长期更新:https://github.com/zysN...
-
Python+AI实现AI绘画
? 运行环境:Python ? 撰写作者:左手の明天 ? 精选专栏:《python》 ? 推荐专栏:《算法研究》 ?#### 防伪水印——左手の明天 ####? ? 大家好???,我是左手の明天!好久不见? ?今天分享py...
-
挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径
在大模型领域,Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显,比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷,研究者们开发出了很多...
-
Point Transformer V3:更简单、更快、更强!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Point Transformer V3: Simpler, Faster, Stronger 论文链接:https://arxiv.org/pdf/2312.10035.pdf 代码链接:h...
-
使用 PyTorch FSDP 微调 Llama 2 70B
引言 通过本文,你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中,我们主要会用到 Hugging Face Transformers、Accelerate 和 TRL 库。我们还将展示如何在 SL...
-
MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT
MosaicML正在推出其第二个开源大型语言模型(LLM),称为MPT-30B,这是继五月份首次推出的较小的MPT-7B模型之后。 为了讨论新模型及其对开发人员的意义,我采访了MosaicML联合创始人兼首席执行官Naveen Rao。他之前的创业公司是...
-
大语言模型之四-LlaMA-2从模型到应用
最近开源大语言模型LlaMA-2火出圈,从huggingface的Open LLM Leaderboard开源大语言模型排行榜可以看到LlaMA-2还是非常有潜力的开源商用大语言模型之一,相比InstructGPT,LlaMA-2在数据质量、培训技术、能力...
-
【LLM】大语言模型学习之LLAMA 2:Open Foundation and Fine-Tuned Chat Model
大语言模型学习之LLAMA 2:Open Foundation and Fine-Tuned Chat Model 快速了解 预训练 预训练模型评估 微调 有监督微调(SFT) 人...
-
Stable Diffusion Webui源码剖析
1、关键python依赖 (1)xformers:优化加速方案。它可以对模型进行适当的优化来加速图片生成并降低显存占用。缺点是输出图像不稳定,有可能比不开Xformers略差。 (2)GFPGAN:它是腾讯开源的人脸修复算法,利用预先训练号的面部GAN...
-
W.A.L.T官网体验入口 AI视频图像生成软件app免费下载地址
《W.A.L.T》是一个基于transformer的实景视频生成方法,它通过联合压缩图像和视频到一个统一的潜在空间,实现跨模态的训练和生成。使用了窗注意力机制来提高内存和训练效率,该方法在多个视频和图像生成基准测试上取得了最先进的性能。《W.A.L.T》在...
-
2024年AI趋势看这张图,LeCun:开源大模型要超越闭源
2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一方「势力」悄然崛起 —— 开源。 开源模型受到的质疑一向不少。它们是否能像专有模型一样优秀?是否能够媲美专有模型的性能?迄今为止,我们一直还只能说...
-
技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca
技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca Introduction Chinese LLaMA Chinese Alpaca Lora-Fin...