-
AIGC之文本内容生成概述(下)——Transformer
在上一篇文章中,我们一口气介绍了LSTM、Word2Vec、GloVe、ELMo等四种模型的技术发展,以及每种模型的优缺点与应用场景,全文超过一万字,显得冗长且繁杂,在下文部分我们将分开介绍Transformer、BERT、GPT1/GPT2/GPT3/C...
-
在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现
引言 自然语言处理 (NLP 领域的进展日新月异,你方唱罢我登场。因此,在实际场景中,针对特定的任务,我们经常需要对不同的语言模型进行比较,以寻找最适合的模型。本文主要比较 3 个模型: RoBERTa、Mistral-7B 及 Llama-2...
-
400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
22倍加速还不够,再来提升46%,而且方法直接开源! 这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。 StreamingLLM可以在不牺牲生成效果、推理速度的前提下,实现多轮对话共400万个token,22.2倍推理速度提升。 该项...
-
Stable Diffusion教程(5) - 文生图教程
配套视频教程: https://v.douyin.com/UyHNfYG/ 文生图界面标注如下 1 提示词和反向提示词 提示词内输入的东西就是你想要画的东西,反向提示词内输入的就是你不想要画的东西 提示框内只能输入英文,所有符号都要使用英...
-
单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA
如何从一段视频中找出感兴趣的片段?时序行为检测(Temporal Action Localization,TAL)是一种常用方法。 利用视频内容进行建模之后,就可以在整段视频当中自由搜索了。 而华中科技大学与密歇根大学的联合团队最近又为这项技术带来了新的...
-
Stable Diffusion 超详细讲解
Stable Diffusion 超详细讲解 这篇文章是 《Stable Diffusion原理详解》的后续,在《Stable Diffusion原理详解》中我更多的是以全局视角讲解了 Stable Diffusion 的原理和工作流程,并未深入步骤细...
-
大模型无限流式输入推理飙升46%!国产开源加速「全家桶」,打破多轮对话长度限制
在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共400万个token的流式输入,22.2倍的推理速度提升...
-
一文速览扩散模型优化过程:从DDPM到条件生成模型Stable Diffusion
文章目录 1、扩散模型简介 - Diffusion Model 2、最简单的扩散模型 - DDPM 前向加噪过程 逆向去噪过程 训练与推理流程 模型优缺点 3、减少扩散模型的采样步骤 - DiffusionGAN 分析高斯分布、采样步长...
-
AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了
近年来,大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展,基于深度学习技术能够理解和生成复杂的文本内容。然而,将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态...
-
告别逐一标注,一个提示实现批量图片分割,高效又准确
Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一...
-
使用PyTorch实现去噪扩散模型
在深入研究去噪扩散概率模型(DDPM 如何工作的细节之前,让我们先看看生成式人工智能的一些发展,也就是DDPM的一些基础研究。 VAE VAE 采用了编码器、概率潜在空间和解码器。在训练过程中,编码器预测每个图像的均值和方差。然后从高斯分布中对这些值进...
-
SparseOcc:全稀疏3D全景占用预测(语义+实例双任务)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文:Fully Sparse 3D Panoptic Occupancy Prediction 链接:https://arxiv.org/pdf/2312.17118.pdf 这篇论文的出发点是什么...
-
何为交互感知?全面回顾自动驾驶中的社会交互动态模型与决策前沿!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 交互感知自动驾驶(IAAD)是一个迅速发展的研究领域,专注于开发能够与人类道路使用者安全、高效交互的自动驾驶车辆。这是一项具有挑战性的任务,因为它要求自动驾驶车辆能够理...
-
AI人工智能大模型讲师叶梓《基于人工智能的内容生成(AIGC)理论与实践》培训提纲
【课程简介】 本课程介绍了chatGPT相关模型的具体案例实践,通过实操更好的掌握chatGPT的概念与应用场景,可以作为chatGPT领域学习者的入门到进阶级课程。 【课程时长】 1天(6小时/天) 【课程对象】 理工科本...
-
深入浅出讲解Stable Diffusion原理,新手也能看明白
说明 最近一段时间对多模态很感兴趣,尤其是Stable Diffusion,安装了环境,圆了自己艺术家的梦想。看了这方面的一些论文,也给人讲过一些这方面的原理,写了一些文章,具体可以参考我的文章: 北方的郎:图文匹配:Clip模型介绍 北方的郎:VQ...
-
Meta最新模型LLaMA详解(含部署+论文)
来源:投稿 作者:毛华庆 编辑:学姐 前言 本课程来自深度之眼《大模型——前沿论文带读训练营》公开课,部分截图来自课程视频。 文章标题:LLaMA: Open and Efficient Foundation Language Mode...
-
如何使用Midjourney辅助建筑设计,常用的提示和使用效果展示(内附Midjourney提示词网站)
文章目录 一.Midjourney建筑设计的提示技巧 1. prompt模板1 2.prompt模板2 二、著名建筑师为例 1.Zaha Hadid(扎哈·哈迪德) 2.Ludwig Mies van der Rohe(路德维希·密斯·凡...
-
Make-A-Video(造啊视频)——无需文字-视频数据的文字转视频(文生视频)生成方法
© 2022 Uriel Singer et al (Meta AI © 2023 Conmajia 本文基于论文 Make-A-Video: Text-to-Video Generation without Text-Video Data(220...
-
Llama~transformers搭建
本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼 。 并且训练它来实现一个有趣的实例:两数之和。 输入输出类似如下: 输入:"12345+54321=" 输出:"66666" 我们把这个任务当做一个...
-
Stable Diffusion - 图像反推 (Interrogate) 提示词算法 (BLIP 和 DeepBooru)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/131817599 图像反推 (Interrogate 功能,是指...
-
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
一杯奶茶,成为 AIGC+CV 视觉前沿弄潮儿! 25个方向!CVPR 2022 GAN论文汇总 35个方向!ICCV 2021 最全GAN论文汇总 超110篇!CVPR 2021 最全GAN论文梳理 超100篇!CVPR 2020...
-
stable diffusion模型讲解
AI模型最新展现出的图像生成能力远远超出人们的预期,直接根据文字描述就能创造出具有惊人视觉效果的图像,其背后的运行机制显得十分神秘与神奇,但确实影响了人类创造艺术的方式。 AI模型最新展现出的图像生成能力远远超出人们的预期,直接根据文字描述就能创造出具有...
-
兵马俑跳《科目三》,是我万万没想到的
家人们,火爆全球的魔性舞蹈《科目三》,谁能料到,就连兵马俑也开始跳上了! 图片 热度还居高不下,瞬间被轰上了热搜,小伙伴们纷纷惊掉了下巴表示“闻所未闻,见所未见”。 图片 这到底是怎么一回事? 原来,是有人借助了阿里之前走红的AI技术——AnimateA...
-
万字长文谈自动驾驶BEV感知
本文经自动驾驶之心公众号授权转载,转载请联系出处。 prologue 这有可能是更的最长的文章系列了,先说为什么,一方面是看到分割大模型对小模型的提升效果需要时间,另一方面是之前对自动驾驶的BEV算法做了很长时间的预研,自己也应该好好梳理一下了。 (很...
-
只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!
太长不看版 这篇论文介绍了一项新的任务 —— 指向性遥感图像分割(RRSIS),以及一种新的方法 —— 旋转多尺度交互网络(RMSIN)。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新...
-
模型A:幸亏有你,我才不得0分,模型B:俺也一样
琳琅满目的乐高积木,通过一块又一块的叠加,可以创造出各种栩栩如生的人物、景观等,不同的乐高作品相互组合,又能为爱好者带来新的创意。 我们把思路打开一点,在大模型(LLM)爆发的当下,我们能不能像拼积木一样,把不同的模型搭建起来,而不会影响原来模型的功能,...
-
一句话精准视频片段定位!清华新方法拿下SOTA|已开源
只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳: 就连“大笑”这种语义难理解型的,也能准确定位: 方法名为自适应双分支促进网络(ADPN),由清...
-
一个评测模型+10个问题,摸清盘古、通义千问、文心一言、ChatGPT的“家底”!...
数据智能产业创新服务媒体 ——聚焦数智 · 改变商业 毫无疑问,全球已经在进行大模型的军备竞赛了,“有头有脸”的科技巨头都不会缺席。昨天阿里巴巴内测了通义千问,今天华为公布了盘古大模型的最新进展。不久前百度公布了文心一言...
-
谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫,连甩三连弹开打
火爆全网的斯坦福炒虾机器人,一天之内人气暴涨。 毕竟这样能炒菜能洗碗的全能机器人,谁不想带一个回家,把自己从家务中解放出来呢! 据说,这个项目是斯坦福华人团队花了三个月的时间做出来的。 今天,团队直接放出了更多细节。 这个机器人的技能多种多样,令人眼...
-
谷歌DeepMind机器人成果三连发!两大能力全提升,数据收集系统可同时管理20个机器人
几乎是和斯坦福“炒虾洗碗”机器人同一时间,谷歌DeepMind也发布了最新具身智能成果。 并且是三连发: 先是一个主打提高决策速度的新模型,让机器人的操作速度(相比原来的Robotics Transformer)提高了14%——快的同时,质量也没有下滑...
-
图解tinyBERT模型——BERT模型压缩精华
译者 | 朱先忠 审校 | 重楼 简介 近年来,大型语言模型的发展突飞猛进。BERT成为最受欢迎和最有效的模型之一,可以高精度地解决各种自然语言处理(NLP)任务。继BERT模型之后,一组其他的模型也先后出现并各自展示出优秀的性能。 不难看到一个明显趋势...
-
【AIGC-图片生成视频系列-4】DreamTuner:单张图像足以进行主题驱动生成
目录 一. 项目概述 问题: 解决: 二. 方法详解 a 整体结构 b 自主题注意力 三. 文本控制的动漫角色驱动图像生成的结果 四. 文本控制的自然图像驱动图像生成的结果 五. 姿势控制角色驱动图像生成的结果 2023年的最后一...
-
微软官方 Copilot AI 编程训练营第一天精华总结
阿七参加的微软官方组织的 Copilot AI 编程训练营开始了,这是第一天。 GitHub Copilot 官方统计,使用 GitHub Copilot 的开发者基本上能极大的提升编码效率、减少重复性代码编码时间且能更加专注于主线任务。 不管这个...
-
从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述
大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其...
-
文生视频下一站,Meta已经开始视频生视频了
文本指导的视频到视频(V2V)合成在各个领域具有广泛的应用,例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间...
-
Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%
最近几年发布的AI模型,如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构,但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势,这一特性严重限制了Transformer在长序列下的应用,例如无法一次性处理一...
-
AI论文范文:AIGC中的图像转视频技术研究
声明: ⚠️本文由智元兔AI写作大师生成,仅供学习参考智元兔-官网|一站式AI服务平台|AI论文写作|免费论文扩写、翻译、降重神器 1 引言 1.1 AIGC技术背景介绍 1.2 图像转视频技术的重要性与应用场景 1.3 研究动机与目标 2...
-
LLaMA模型论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记
文章目录 1. 简介 2.方法 2.1 预训练数据 2.2 网络架构 2.3 优化器 2.4 高效的实现 3.论文其余部分 4. 参考资料 1. 简介 LLaMA是meta在2023年2月开源的大模型,在这之后,很多开源模型都...
-
一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long
前言 关于位置编码和RoPE 应用广泛,是很多大模型使用的一种位置编码方式,包括且不限于LLaMA、baichuan、ChatGLM等等 我之前在本博客中的另外两篇文章中有阐述过(一篇是关于LLaMA解读的,一篇是关于transformer从零实现...
-
LLaMA, ChatGLM, BLOOM的参数高效微调实践
作者:回旋托马斯x(腾讯NLP算法工程师) 项目地址:https://zhuanlan.zhihu.com/p/635710004 1. 开源基座模型对比 大语言模型的训练分为两个阶段: (1)在海量文本语料上的无监督预训练,学习通用的语义表...
-
stable diffusion中的u net
Stable Diffusion 包含几个核心的组件: 一个文本编码器(在 Stable Diffusion 中使用 CLIP 的 ViT-L/14 的文本编码器),用于将用户输入的 Prompt 文本转化成 text embedding; 一个 Im...
-
深度学习实战29-AIGC项目:利用GPT-2(CPU环境)进行文本续写与生成歌词任务
大家好,我是微学AI,今天给大家介绍一下深度学习实战29-AIGC项目:利用GPT-2(CPU环境 进行文本续写与生成歌词任务。在大家没有GPU算力的情况,大模型可能玩不动,推理速度慢,那么我们怎么才能跑去生成式的模型呢,我们可以试一下GPT-2完成一些简...
-
谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构
在大模型领域,一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。 这个挑战者就是一项名为「Mamba」的研究,其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,Mamba-3B 模...
-
Midjourney V6 引爆社交媒体,AI图像与照片的差别消失;LangChain的2023AI发展状况总结
? AI新闻 ? Midjourney V6 引爆社交媒体,AI图像与照片的差别消失 摘要:Midjourney V6 第二次社区评价震惊网友,神图细节逼真,光影效果逆天,皮肤质感细腻,已超越昨日版本。V6即将上线,预计在圣诞节前发布。其出图质量让...
-
CVPR 2023 | 图像超分,结合扩散模型/GAN/部署优化,low-level任务,视觉AIGC系列
1、Activating More Pixels in Image Super-Resolution Transformer 基于Transformer的方法在低级别视觉任务中,如图像超分辨率,表现出了令人印象深刻的性能。Transformer的...
-
Llama2推理RTX3090胜过4090,延迟吞吐量占优,但被A800远远甩开
大型语言模型 (LLM 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而,不同硬件和软件堆栈的运行时性能可能存在很大差异,这使得选...
-
人工智能如何改变视频监控行业
通过将视频数据与其他信息源相结合,最新的人工智能解决方案不仅可以识别物体和事件,还可以理解复杂的人类行为和交互。其结果是一次巨大的飞跃,从被动观察的工具到主动、智能行动的工具。 实时监控数十个摄像头场景对于人类来说是一项繁琐且疲惫的任务。仅靠人类操作员...
-
超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文:Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers 链接:https://arxiv.org/pd...
-
LLaMa、Qwen、ChatGLM、ChatGLM2的区别
LLaMa、Qwen、ChatGLM、ChatGLM2的区别 以下比较的前提是首先和BERT(transfomer 的对比 感谢帮忙给我github repository的star,更多最新模型长期更新:https://github.com/zysN...
-
谷歌Bard更新中文支持;GPT-4:1.8万亿参数、混合专家模型揭秘; Meta推出商用版本AI模型
? AI新闻 ? 谷歌的AI聊天工具Bard更新,增加中文支持 摘要:谷歌的AI聊天工具Bard新增中文环境,用户可以使用简体和繁体中文进行交流。然而,与竞品相比,Bard的回复略显生硬,语义理解还有待提升。此外,谷歌还更新了Bard的日志页面,新...