注意力第15页 - AIGC资讯

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

无需微调，只要四行代码就能让大模型窗口长度暴增，最高可增加3倍! 而且是“即插即用”，理论上可以适配任意大模型，目前已在Mistral和Llama2上试验成功。有了这项技术，大模型（LargeLM）就能摇身一变，成为LongLM。近日，来自得克萨斯农...

人工智能 2024-01-08 人工智能

737阅读

AIGC之文本内容生成概述（下）——Transformer

在上一篇文章中，我们一口气介绍了LSTM、Word2Vec、GloVe、ELMo等四种模型的技术发展，以及每种模型的优缺点与应用场景，全文超过一万字，显得冗长且繁杂，在下文部分我们将分开介绍Transformer、BERT、GPT1/GPT2/GPT3/C...

生成式AI 2024-01-08 人工智能

953阅读

在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现

引言自然语言处理 (NLP 领域的进展日新月异，你方唱罢我登场。因此，在实际场景中，针对特定的任务，我们经常需要对不同的语言模型进行比较，以寻找最适合的模型。本文主要比较 3 个模型: RoBERTa、Mistral-7B 及 Llama-2...

人工智能 2024-01-08 人工智能

1020阅读

400万token上下文、推理再加速46%！最新开源方案升级MIT成果，推理成本再降低

22倍加速还不够，再来提升46%，而且方法直接开源！这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。 StreamingLLM可以在不牺牲生成效果、推理速度的前提下，实现多轮对话共400万个token，22.2倍推理速度提升。该项...

大数据 2024-01-08 人工智能

869阅读

Stable Diffusion教程(5) - 文生图教程

配套视频教程： https://v.douyin.com/UyHNfYG/ 文生图界面标注如下 1 提示词和反向提示词提示词内输入的东西就是你想要画的东西，反向提示词内输入的就是你不想要画的东西提示框内只能输入英文，所有符号都要使用英...

大数据 2024-01-08 人工智能

1051阅读

单帧标注视频就能学到片段特征，达到全监督性能！华科拿下时序行为检测新SOTA

如何从一段视频中找出感兴趣的片段？时序行为检测（Temporal Action Localization，TAL）是一种常用方法。利用视频内容进行建模之后，就可以在整段视频当中自由搜索了。而华中科技大学与密歇根大学的联合团队最近又为这项技术带来了新的...

人工智能 2024-01-08 人工智能

748阅读

Stable Diffusion 超详细讲解

Stable Diffusion 超详细讲解这篇文章是《Stable Diffusion原理详解》的后续，在《Stable Diffusion原理详解》中我更多的是以全局视角讲解了 Stable Diffusion 的原理和工作流程，并未深入步骤细...

人工智能 2024-01-08 人工智能

1008阅读

大模型无限流式输入推理飙升46%！国产开源加速「全家桶」，打破多轮对话长度限制

在大型语言模型（LLM）的世界中，处理多轮对话一直是一个挑战。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM，能够在不牺牲推理速度和生成效果的前提下，可实现多轮对话总共400万个token的流式输入，22.2倍的推理速度提升...

人工智能 2024-01-08 人工智能

1047阅读

一文速览扩散模型优化过程：从DDPM到条件生成模型Stable Diffusion

文章目录 1、扩散模型简介 - Diffusion Model 2、最简单的扩散模型 - DDPM 前向加噪过程逆向去噪过程训练与推理流程模型优缺点 3、减少扩散模型的采样步骤 - DiffusionGAN 分析高斯分布、采样步长...

人工智能 2024-01-08 人工智能

2391阅读

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

近年来，大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展，基于深度学习技术能够理解和生成复杂的文本内容。然而，将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息，还涉及时间序列的动态...

AIGC 2024-01-08 人工智能

887阅读

告别逐一标注，一个提示实现批量图片分割，高效又准确

Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注，其卓越的泛化性能引发了广泛的兴趣。然而，尽管如此，SAM 仍然面临一个无法回避的问题：为了使 SAM 能够准确地分割出目标物体的位置，每张图片都需要手动提供一...

生成式AI 2024-01-08 人工智能

773阅读

使用PyTorch实现去噪扩散模型

在深入研究去噪扩散概率模型(DDPM 如何工作的细节之前，让我们先看看生成式人工智能的一些发展，也就是DDPM的一些基础研究。 VAE VAE 采用了编码器、概率潜在空间和解码器。在训练过程中，编码器预测每个图像的均值和方差。然后从高斯分布中对这些值进...

人工智能 2024-01-08 人工智能

780阅读

SparseOcc：全稀疏3D全景占用预测（语义+实例双任务）

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文：Fully Sparse 3D Panoptic Occupancy Prediction 链接：https://arxiv.org/pdf/2312.17118.pdf 这篇论文的出发点是什么...

AIGC 2024-01-08 人工智能

864阅读

何为交互感知？全面回顾自动驾驶中的社会交互动态模型与决策前沿！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解交互感知自动驾驶（IAAD）是一个迅速发展的研究领域，专注于开发能够与人类道路使用者安全、高效交互的自动驾驶车辆。这是一项具有挑战性的任务，因为它要求自动驾驶车辆能够理...

AIGC 2024-01-08 人工智能

1003阅读

AI人工智能大模型讲师叶梓《基于人工智能的内容生成（AIGC）理论与实践》培训提纲

【课程简介】本课程介绍了chatGPT相关模型的具体案例实践，通过实操更好的掌握chatGPT的概念与应用场景，可以作为chatGPT领域学习者的入门到进阶级课程。【课程时长】 1天（6小时/天）【课程对象】理工科本...

生成式AI 2024-01-08 人工智能

766阅读

深入浅出讲解Stable Diffusion原理，新手也能看明白

说明最近一段时间对多模态很感兴趣，尤其是Stable Diffusion，安装了环境，圆了自己艺术家的梦想。看了这方面的一些论文，也给人讲过一些这方面的原理，写了一些文章，具体可以参考我的文章：北方的郎：图文匹配：Clip模型介绍北方的郎：VQ...

人工智能 2024-01-08 人工智能

766阅读

Meta最新模型LLaMA详解（含部署+论文）

来源：投稿作者：毛华庆编辑：学姐前言本课程来自深度之眼《大模型——前沿论文带读训练营》公开课，部分截图来自课程视频。文章标题：LLaMA: Open and Efficient Foundation Language Mode...

大数据 2024-01-08 人工智能

907阅读

如何使用Midjourney辅助建筑设计，常用的提示和使用效果展示（内附Midjourney提示词网站）

文章目录一.Midjourney建筑设计的提示技巧 1. prompt模板1 2.prompt模板2 二、著名建筑师为例 1.Zaha Hadid（扎哈·哈迪德） 2.Ludwig Mies van der Rohe（路德维希·密斯·凡...

大数据 2024-01-07 人工智能

1013阅读

Make-A-Video（造啊视频）——无需文字-视频数据的文字转视频（文生视频）生成方法

AIGC 2024-01-07 人工智能

1525阅读

Llama~transformers搭建

本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼。并且训练它来实现一个有趣的实例：两数之和。输入输出类似如下：输入："12345+54321=" 输出："66666" 我们把这个任务当做一个...

AIGC 2024-01-07 人工智能

1043阅读

Stable Diffusion - 图像反推 (Interrogate) 提示词算法 (BLIP 和 DeepBooru)

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/131817599 图像反推 (Interrogate 功能，是指...

AIGC 2024-01-07 人工智能

1579阅读

卧剿，6万字！30个方向130篇！CVPR 2023 最全 AIGC 论文！一口气读完。

一杯奶茶，成为 AIGC+CV 视觉前沿弄潮儿！ 25个方向！CVPR 2022 GAN论文汇总 35个方向！ICCV 2021 最全GAN论文汇总超110篇！CVPR 2021 最全GAN论文梳理超100篇！CVPR 2020...

人工智能 2024-01-07 人工智能

1227阅读

stable diffusion模型讲解

AI模型最新展现出的图像生成能力远远超出人们的预期，直接根据文字描述就能创造出具有惊人视觉效果的图像，其背后的运行机制显得十分神秘与神奇，但确实影响了人类创造艺术的方式。 AI模型最新展现出的图像生成能力远远超出人们的预期，直接根据文字描述就能创造出具有...

人工智能 2024-01-07 人工智能

837阅读

兵马俑跳《科目三》，是我万万没想到的

家人们，火爆全球的魔性舞蹈《科目三》，谁能料到，就连兵马俑也开始跳上了！图片热度还居高不下，瞬间被轰上了热搜，小伙伴们纷纷惊掉了下巴表示“闻所未闻，见所未见”。图片这到底是怎么一回事？原来，是有人借助了阿里之前走红的AI技术——AnimateA...

AIGC 2024-01-07 人工智能

808阅读

万字长文谈自动驾驶BEV感知

本文经自动驾驶之心公众号授权转载，转载请联系出处。 prologue 这有可能是更的最长的文章系列了，先说为什么，一方面是看到分割大模型对小模型的提升效果需要时间，另一方面是之前对自动驾驶的BEV算法做了很长时间的预研，自己也应该好好梳理一下了。（很...

生成式AI 2024-01-07 人工智能

1038阅读

只需1080ti，即可在遥感图像中对目标进行像素级定位！代码数据集已开源！

太长不看版这篇论文介绍了一项新的任务 —— 指向性遥感图像分割（RRSIS），以及一种新的方法 —— 旋转多尺度交互网络（RMSIN）。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制，本文构建了一个新...

大数据 2024-01-06 人工智能

794阅读

模型A：幸亏有你，我才不得0分，模型B：俺也一样

琳琅满目的乐高积木，通过一块又一块的叠加，可以创造出各种栩栩如生的人物、景观等，不同的乐高作品相互组合，又能为爱好者带来新的创意。我们把思路打开一点，在大模型（LLM）爆发的当下，我们能不能像拼积木一样，把不同的模型搭建起来，而不会影响原来模型的功能，...

人工智能 2024-01-06 人工智能

695阅读

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

只需一句话描述，就能在一大段视频中定位到对应片段！比如描述“一个人一边下楼梯一边喝水”，通过视频画面和脚步声的匹配，新方法一下子就能揪出对应起止时间戳：就连“大笑”这种语义难理解型的，也能准确定位：方法名为自适应双分支促进网络（ADPN），由清...

AIGC 2024-01-06 人工智能

800阅读

一个评测模型+10个问题，摸清盘古、通义千问、文心一言、ChatGPT的“家底”！...

‍数据智能产业创新服务媒体 ——聚焦数智 · 改变商业毫无疑问，全球已经在进行大模型的军备竞赛了，“有头有脸”的科技巨头都不会缺席。昨天阿里巴巴内测了通义千问，今天华为公布了盘古大模型的最新进展。不久前百度公布了文心一言...

生成式AI 2024-01-06 人工智能

870阅读

谷歌家务机器人单挑斯坦福炒虾机器人！端茶倒水逗猫，连甩三连弹开打

火爆全网的斯坦福炒虾机器人，一天之内人气暴涨。毕竟这样能炒菜能洗碗的全能机器人，谁不想带一个回家，把自己从家务中解放出来呢！据说，这个项目是斯坦福华人团队花了三个月的时间做出来的。今天，团队直接放出了更多细节。这个机器人的技能多种多样，令人眼...

人工智能 2024-01-05 人工智能

785阅读

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

几乎是和斯坦福“炒虾洗碗”机器人同一时间，谷歌DeepMind也发布了最新具身智能成果。并且是三连发：先是一个主打提高决策速度的新模型，让机器人的操作速度（相比原来的Robotics Transformer）提高了14%——快的同时，质量也没有下滑...

人工智能 2024-01-05 人工智能

770阅读

图解tinyBERT模型——BERT模型压缩精华

译者 | 朱先忠审校 | 重楼简介近年来，大型语言模型的发展突飞猛进。BERT成为最受欢迎和最有效的模型之一，可以高精度地解决各种自然语言处理（NLP）任务。继BERT模型之后，一组其他的模型也先后出现并各自展示出优秀的性能。不难看到一个明显趋势...

AIGC 2024-01-05 人工智能

962阅读

【AIGC-图片生成视频系列-4】DreamTuner：单张图像足以进行主题驱动生成

目录一. 项目概述问题：解决：二. 方法详解 a 整体结构 b 自主题注意力三. 文本控制的动漫角色驱动图像生成的结果四. 文本控制的自然图像驱动图像生成的结果五. 姿势控制角色驱动图像生成的结果 2023年的最后一...

大数据 2024-01-04 人工智能

811阅读

微软官方 Copilot AI 编程训练营第一天精华总结

阿七参加的微软官方组织的 Copilot AI 编程训练营开始了，这是第一天。 GitHub Copilot 官方统计，使用 GitHub Copilot 的开发者基本上能极大的提升编码效率、减少重复性代码编码时间且能更加专注于主线任务。不管这个...

AIGC 2024-01-03 人工智能

820阅读

从模型、数据和框架三个视角出发，这里有份54页的高效大语言模型综述

大规模语言模型（LLMs）在很多关键任务中展现出显著的能力，比如自然语言理解、语言生成和复杂推理，并对社会产生深远的影响。然而，这些卓越的能力伴随着对庞大训练资源的需求（如下图左）和较长推理时延（如下图右）。因此，研究者们需要开发出有效的技术手段去解决其...

人工智能 2024-01-02 人工智能

790阅读

文生视频下一站，Meta已经开始视频生视频了

文本指导的视频到视频（V2V）合成在各个领域具有广泛的应用，例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像（I2I）的合成方式，但在视频到视频（V2V）合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间...

AIGC 2024-01-02 人工智能

759阅读

Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%

最近几年发布的AI模型，如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构，但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势，这一特性严重限制了Transformer在长序列下的应用，例如无法一次性处理一...

人工智能 2024-01-02 人工智能

1009阅读

AI论文范文：AIGC中的图像转视频技术研究

声明： ⚠️本文由智元兔AI写作大师生成，仅供学习参考智元兔-官网|一站式AI服务平台|AI论文写作|免费论文扩写、翻译、降重神器 1 引言 1.1 AIGC技术背景介绍 1.2 图像转视频技术的重要性与应用场景 1.3 研究动机与目标 2...

生成式AI 2024-01-02 人工智能

792阅读

LLaMA模型论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记

文章目录 1. 简介 2.方法 2.1 预训练数据 2.2 网络架构 2.3 优化器 2.4 高效的实现 3.论文其余部分 4. 参考资料 1. 简介 LLaMA是meta在2023年2月开源的大模型，在这之后，很多开源模型都...

AIGC 2024-01-02 人工智能

1119阅读

一文通透位置编码：从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long

前言关于位置编码和RoPE 应用广泛，是很多大模型使用的一种位置编码方式，包括且不限于LLaMA、baichuan、ChatGLM等等我之前在本博客中的另外两篇文章中有阐述过(一篇是关于LLaMA解读的，一篇是关于transformer从零实现...

人工智能 2024-01-01 人工智能

1033阅读

LLaMA, ChatGLM, BLOOM的参数高效微调实践

作者：回旋托马斯x（腾讯NLP算法工程师）项目地址：https://zhuanlan.zhihu.com/p/635710004 1. 开源基座模型对比大语言模型的训练分为两个阶段：（1）在海量文本语料上的无监督预训练，学习通用的语义表...

人工智能 2024-01-01 人工智能

1211阅读

stable diffusion中的u net

Stable Diffusion 包含几个核心的组件：一个文本编码器（在 Stable Diffusion 中使用 CLIP 的 ViT-L/14 的文本编码器），用于将用户输入的 Prompt 文本转化成 text embedding；一个 Im...

大数据 2023-12-29 人工智能

1117阅读

深度学习实战29-AIGC项目：利用GPT-2(CPU环境)进行文本续写与生成歌词任务

大家好，我是微学AI，今天给大家介绍一下深度学习实战29-AIGC项目：利用GPT-2(CPU环境进行文本续写与生成歌词任务。在大家没有GPU算力的情况，大模型可能玩不动，推理速度慢，那么我们怎么才能跑去生成式的模型呢，我们可以试一下GPT-2完成一些简...

AIGC 2023-12-29 人工智能

913阅读

谁能撼动Transformer统治地位？Mamba作者谈LLM未来架构

在大模型领域，一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。这个挑战者就是一项名为「Mamba」的研究，其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面，无论是预训练还是下游评估，Mamba-3B 模...

人工智能 2023-12-29 人工智能

969阅读

Midjourney V6 引爆社交媒体，AI图像与照片的差别消失；LangChain的2023AI发展状况总结

? AI新闻 ? Midjourney V6 引爆社交媒体，AI图像与照片的差别消失摘要：Midjourney V6 第二次社区评价震惊网友，神图细节逼真，光影效果逆天，皮肤质感细腻，已超越昨日版本。V6即将上线，预计在圣诞节前发布。其出图质量让...

AIGC 2023-12-28 人工智能

817阅读

CVPR 2023 | 图像超分，结合扩散模型/GAN/部署优化，low-level任务，视觉AIGC系列

1、Activating More Pixels in Image Super-Resolution Transformer 基于Transformer的方法在低级别视觉任务中，如图像超分辨率，表现出了令人印象深刻的性能。Transformer的...

AIGC 2023-12-28 人工智能

859阅读

Llama2推理RTX3090胜过4090，延迟吞吐量占优，但被A800远远甩开

大型语言模型 (LLM 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而，不同硬件和软件堆栈的运行时性能可能存在很大差异，这使得选...

人工智能 2023-12-27 人工智能

912阅读

人工智能如何改变视频监控行业

通过将视频数据与其他信息源相结合，最新的人工智能解决方案不仅可以识别物体和事件，还可以理解复杂的人类行为和交互。其结果是一次巨大的飞跃，从被动观察的工具到主动、智能行动的工具。实时监控数十个摄像头场景对于人类来说是一项繁琐且疲惫的任务。仅靠人类操作员...

大数据 2023-12-27 人工智能

746阅读

超越BEVFusion！Lift-Attend-Splat：最新BEV LV融合方案

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文：Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers 链接：https://arxiv.org/pd...

AIGC 2023-12-27 人工智能

762阅读

LLaMa、Qwen、ChatGLM、ChatGLM2的区别

LLaMa、Qwen、ChatGLM、ChatGLM2的区别以下比较的前提是首先和BERT(transfomer 的对比感谢帮忙给我github repository的star，更多最新模型长期更新：https://github.com/zysN...

人工智能 2023-12-27 人工智能

1599阅读