-
基于 NNCF 和 Optimum 面向 Intel CPU 对 Stable Diffusion 优化
? 宝子们可以戳 阅读原文 查看文中所有的外部链接哟! 基于隐空间的扩散模型 (Latent Diffusion Model ,是解决文本到图片生成问题上的颠覆者。Stable Diffusion 是最著名的一例,广泛应用在商业和工...
-
【文生图】Stable Diffusion XL 1.0模型Full Fine-tuning指南(U-Net全参微调)
文章目录 前言 重要教程链接 以海报生成微调为例 总体流程 数据获取 POSTER-TEXT AutoPoster CGL-Dataset PKU PosterLayout PosterT80K Movie & TV Series...
-
ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础
✏️写作:个人博客,InfoQ,掘金,知乎,CSDN ?公众号:进击的Matrix ?特别声明:创作不易,未经授权不得转载或抄袭,如需转载可联系小编授权。 前言 最近ChatGPT,想必大家已经是耳熟能详了,一度认为ChatGPT的到来是...
-
Stable Diffusion加chilloutmixni真人图片生成模型,AI绘图杀疯了
上期图文教程,我们分享过AI绘图大模型Stable Diffusion以及中文版本文心AI绘画大模型的基础知识以及代码实现,截至到目前为止。Stable Diffusion模型已经更新到了V2.1版本,其文生图大模型也越来越火,其在2022年底,由AI绘制...
-
【ChatGLM3】(7):在autodl上,使用A50显卡,使用LLaMa-Factory开源项目对ChatGLM3进行训练,非常方便的,也方便可以使用多个数据集
1,视频地址 https://www.bilibili.com/video/BV1GN411j7NP/ 大模型训练利器,使用LLaMa-Factory开源项目,对ChatGLM3进行训练,特别方便,支持多个模型,非常方方便...
-
北京大学发布EAGLE 大模型推理效率无损提升3倍
近年来,大语言模型在各领域应用广泛,但其文本生成过程昂贵且缓慢。为解决这一问题,滑铁卢大学、加拿大向量研究院、北京大学等机构联合发布了EAGLE。EAGLE的目标是提升大语言模型的推理速度,同时确保输出文本的分布一致性。通过外推大语言模型的第二顶层特征向量...
-
首个「创造式任务」基准来了!北大清华联手发布Creative Agents:专为想象力而生!
近年来,许多研究通过训练服从自然语言指令的智能体,让智能体具有了解决各种开放式任务的能力。 例如,SayCan[1]利用语言模型实现了根据语言描述解决各种室内机器人任务的智能体,Steve-1[2]训练端到端的策略实现了能够在《我的世界》(Minecra...
-
【Video-LLaMA】增强LLM对视频内容的理解
Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》 Authors: Hang Zhang, Xin Li, Lid...
-
Midjourney API 申请及使用
Midjourney API 申请及使用 在人工智能绘图领域,想必大家听说过 Midjourney 的大名吧! Midjourney 以其出色的绘图能力在业界独树一帜。无需过多复杂的操作,只要简单输入绘图指令,这个神奇的工具就能在瞬间为我们呈现出对应...
-
Midjourney API 的对接和使用
“ 阅读本文大概需要 4 分钟。 ” 在人工智能绘图领域,想必大家听说过 Midjourney 的大名吧。 Midjourney 以其出色的绘图能力在业界独树一帜。无需过多复杂的操作,只要简单输入绘图指令,这个神奇的工具...
-
你真的看懂扩散模型(diffusion model)了吗?(从DALL·E 2讲起,GAN、VAE、MAE都有)
本文全网原创于CSDN:落难Coder ,未经允许,不得转载! 扩散模型简单介绍 我们来讲一下什么是扩散模型,如果你不了解一些工作,你可能不清楚它究竟是什么。那么我举两个例子说一下:AI作画(输入一些文字就可以得到与你描述相符的图像)和抖音大火的...
-
【多模态】5、BLIP | 统一理解与生成任务 为图像生成更高质量的文本描述
文章目录 一、背景 二、方法 2.1 模型结构 2.2 Pre-training Objectives 2.3 CapFilt 三、效果 3.1 训练细节 3.2 CapFilt 的效果 3.3 样本多样性是文本合成器的关键 3.4 参数...
-
弥合化学反应预训练和条件分子生成之间的差距,北大&望石智慧提出「统一」模型
化学反应是药物设计和有机化学研究的基础。研究界越来越需要一种能够有效捕获化学反应基本规则的大规模深度学习框架。 近日,来自北京大学和望石智慧的研究团队提出了一种新方法来弥合基于反应的分子预训练和生成任务之间的差距。 受有机化学机制的启发,研究人员开发了一...
-
【扩散模型】2、DDPM | 去噪扩散概率模型开山之作
文章目录 数学基础知识 一、背景 二、DDPM 主要过程 2.1 前向扩散过程 2.2 逆向去噪过程 2.3 训练和推理 论文:Denoising Diffusion Probabilistic Models 代码:http...
-
吞吐量提升近30倍!田渊栋团队最新论文解决大模型部署难题
大型语言模型 (LLM) 在今年可谓是风光无限。不过惊艳的效果背后是一个巨大的模型以及夸张的硬件资源。 LLM在现实中部署时通常会面临两个难题:昂贵的KV缓存成本,以及对长序列的泛化能力差。 近日,田渊栋团队发表了一篇论文,成功解决以上两个难题,并将推理...
-
LLaMA模型微调版本:斯坦福 Alpaca 详解
项目代码:https://github.com/tatsu-lab/stanford_alpaca 博客介绍:https://crfm.stanford.edu/2023/03/13/alpaca.html Alpaca 总览 Alpaca 是 L...
-
专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama
在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。 尽管当前图表理解领域中的最先进模型在简单测试集上表现出色,但由于缺乏语言理解和输出能力,它们无法胜任更为复杂的问答...
-
为什么多数情况下GPT-3.5比LLaMA 2更便宜?
本文旨在为用户选择合适的开源或闭源语言模型提供指导,以便在不同任务需求下获得更高的性价比。 通过测试比较 LLaMA-2 和 GPT-3.5 的成本和时延,本文作者分别计算了二者的 1000 词元成本,证明在大多数情况下,选择 GPT...
-
Midjourney API 国内申请及对接方式
在人工智能绘图领域,想必大家听说过 Midjourney 的大名吧! Midjourney 以其出色的绘图能力在业界独树一帜。无需过多复杂的操作,只要简单输入绘图指令,这个神奇的工具就能在瞬间为我们呈现出对应的图像。无论是任何物体还是任何风格,都能在Mi...
-
LCM:大大加快生成高质量图像的新方法
作者丨Mike Young 译者 | 布加迪 审校 | 重楼 出品 | 51CTO技术栈(微信号:blog51cto) 图片 得益于一种名为潜在一致性模型(LCM)的新技术,文本转换成图像的AI即将迎来重大飞跃。潜在扩散模型(LDM)等传统方法在使用...
-
一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉
2023的科技界,可以说是被大模型抢尽了风头(虚假的室温超导除外)。 我们经历了和LLM对话,见证了它们逐渐进入各个领域,甚至开始感受到威胁。 这一切,仅仅发生在一年之内。 当然了,基于大语言模型的原理,它诞生之时就有的一些毛病到现在也没有完全改正。 比...
-
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。 为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架...
-
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。 为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框...
-
视频生成: 基于Stable Diffusion的微调方法
chatGPT带来了几个月的AIGC热度,文本图像生成模型大行其道,但AI在视频生成任务上尚没有较好的开源仓库,并受限于“缺那么几百块A100"的资源问题,大多数人无法展开视频生成的研究。好在目前有不少针对视频生成的相关paper,也有不少开源实现...
-
大模型入门(四)—— 基于peft 微调 LLaMa模型
llama-7b模型大小大约27G,本文在单张/两张 16G V100上基于hugging face的peft库实现了llama-7b的微调。 1、模型和数据准备 使用的大模型:https://huggingface.co/decapoda-resea...
-
算法面试-深度学习基础面试题整理-AIGC相关(2023.9.01)
1、stable diffusion和GAN哪个好?为什么 ? Stable diffusion是一种基于随机微分方程的生成方法,它通过逐步增加噪声来扰动原始图像,直到完全随机化。然后,它通过逐步减少噪声来恢复图像,同时使用一个神经网络来预测下一步的噪...
-
【OpenAI】DALL·E 2,让我来带你认识一下这位来自AI界的艺术家
个人主页:【?个人主页】 文章目录 前言 什么是DALL-E 2 ? 介绍的怎么厉害,它又能干啥呢? 基本功能 新功能 编辑 变体功能 总结 前言 DALL-E 2 是一种基于语言的人工智能图像生...
-
中科大联合封神榜团队发布中文医疗领域大模型ChiMed-GPT
中科大和 IDEA 研究院封神榜团队合作开发了一款名为 ChiMed-GPT 的中文医疗领域大语言模型(LLM)。该模型基于封神榜团队的 Ziya2-13B 模型构建,拥有130亿个参数,并通过全方位的预训练、监督微调和人类反馈强化学习来满足医疗文本处理的...
-
Midjourney用户手册中文版详解模型、命令、参数与高级用法
最近正在上手体验目前网上很火的 AI 绘画工具 Midjourney,在B 站上找了很多教程来看,现在基本可以上手用它生成很多好玩的图片了。 • Midjourney 入门教程:Midjourney零基础入门指南!小白轻松上手...
-
Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制
提到视频生成,很多人首先想到的可能是 Gen-2、Pika Labs。但刚刚,Meta 宣布,他们的视频生成效果超过了这两家,而且编辑起来还更加灵活。 这个「吹小号、跳舞的兔子」是 Meta 发布的最新 demo。从中可以看出,Meta 的技术既支...
-
【NLP】Llama & Alpaca大模型
?大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流? ?个人主页-Sonhhxg_柒的博客_CSDN博客 ? ?欢迎各位→点赞? + 收藏⭐️ + 留言? ?系列专栏 - 机器学习【ML】 自然语言...
-
AI图像生成模型LCMs: 四个步骤就能快速生成高质量图像的新方法
在最新的AI模型和研究领域,一种名为Latent Consistency Models(LCMs)的新技术正迅速推动文本到图像人工智能的发展。与传统的Latent Diffusion Models(LDMs 相比,LCMs在生成详细且富有创意的图像方面同样...
-
调用百度文心AI作画API实现中文-图像跨模态生成
作者介绍 乔冠华,女,西安工程大学电子信息学院,2020级硕士研究生,张宏伟人工智能课题组。 研究方向:机器视觉与人工智能。 电子邮件:1078914066@qq.com 一.文心AI作画API介绍 1. 文心AI作画 文心ERNIE-...
-
【网安AIGC专题10.11】2 ILF利用人类编写的 自然语言反馈 来训练代码生成模型:自动化反馈生成+多步反馈合并+处理多错误反馈+CODEGEN -M ONO 6.1 B model
Improving Code Generation by Training with Natural Language Feedback 写在最前面 主要工作 启发 背景介绍 应用 现有工作的不足 Motivation动机 方法 ILF...
-
大语言模型汇总(ChatGPT、盘古、通义、文心一言、混元)
首先就是OpenAI所提出的GPT相关模型,也是目前最火的大语言模型,发布版本已经到了4.0 1.ChatGPT 官网:https://chat.openai.com/chat 如下图是自然语言功能的使用示例 2.华为的盘古模型 盘古模型是华为开发...
-
AI绘画火爆,到现在还只是冰山一角?AIGC掀起当代新艺术浪潮
前言: hello,大家好我是Dream。近日,各大社交平台掀起了一股“AI绘图”风潮,很多同学朋友纷纷在社交平台上晒出了属于自己的AI照片,一时间AI相关话题热度高涨。那对于AI绘画以及开启AI内容创作新时代的昆仑万维你究竟了解多少呢?那么今天我就带大家...
-
开启想象翅膀:轻松实现文本生成模型的创作应用,支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型,开箱即用
开启想象翅膀:轻松实现文本生成模型的创作应用,支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型,开箱即用 TextGen: Implementation of Text Generation...
-
从科幻走向现实,LLM Agent 做到哪一步了?
LLM 洪流滚滚,AI 浪潮席卷全球,在这不断冲击行业认知的一年中,Agent 以冉冉新星之态引起开发者侧目。OpenAI 科学家 Andrej Karpathy 曾言“OpenAI 在大模型领域快人一步,但在 Agent 领域,却是和大家处在同一起跑线上...
-
从概念到现实:ChatGPT 和 Midjourney 的设计之旅
? 个人网站:【工具大全】【游戏大全】【神级源码资源网】 ? 前端学习课程:?【28个案例趣学前端】【400个JS面试题】 ? 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 在现代技术的世界中,人工智能(AI)正迅速演化,并对我们的生活产...
-
AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后,有人破案了
从 ChatGPT 到 GPT4,从 DALL・E 2/3 到 Midjourney,生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待,但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先...
-
CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命
全球首个生成式机器人Agent发布了! 长久以来,相比于语言或者视觉模型可以在大规模的互联网数据上训练,训练机器人的策略模型需要带有动态物理交互信息的数据,而这些数据的匮乏一直是具身智能发展的最大瓶颈。 最近,来自CMU、清华、MIT,UMass等机构的...
-
研究称:向GPT-4等AI模型添加“情感提示词”会提高性能
最新研究发现,当用户表达紧急感或压力等情感时,AI模型如GPT-4可以表现得更好。这一发现对于在其AI应用中的开发者和企业家具有重要意义,提示了一种引入情感语境的新方法,以提高AI性能。 这项研究发现,添加情感因素的提示,被称为“情感提示”,可以提高AI在...
-
生成的分子几乎 100% 有效,用于逆向分子设计的引导扩散模型
「从头分子设计」是材料科学的「圣杯」。生成深度学习的引入极大地推进了这一方向,但分子发现仍然具有挑战性,而且往往效率低下。 以色列理工学院(Technion-Israel Institute of Technology)和意大利威尼斯大学(Univers...
-
RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶
在一项最新的研究中,来自 UW 和 Meta 的研究者提出了一种新的解码算法,将 AlphaGo 采用的蒙特卡洛树搜索算法(Monte-Carlo Tree Search, MCTS)应用到经过近端策略优化(Proximal Policy Optimiz...
-
首个多视角自动驾驶场景视频生成世界模型 | DrivingDiffusion: BEV数据和仿真新思路
笔者的一些个人思考 在自动驾驶领域,随着BEV-based子任务/端到端方案的发展,高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点,“高质量”可以解耦成三个方面: 不同维度上的长尾场景:如障碍物数据中近距离的车辆以及切车过程中...
-
MiniGPT-5:一种基于生成vokens 的交错视觉和语言生成模型
MiniGPT-5是一种交错视觉和语言生成模型,通过整合大型语言模型和稳定扩散技术,实现了文本和图像的协调输出。该模型采用两阶段训练策略,首先进行无图像描述的多模态数据生成,然后利用无分类器的引导系统进一步提升生成 vokens 的效果。MiniGPT-5...
-
评论能力强于GPT-4,上交开源13B评估大模型Auto-J
随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。 虽然模型的对齐至关重要,但目前的评估方法往往存在局限性,这也让开发者往往困惑:大模型对齐程度如何?这不仅制约了对齐技术的进一步发展,也引发了...