-
diffusion model(五)stable diffusion底层原理(latent diffusion model, LDM)
LDM: 在隐空间用diffusion model合成高质量的图片! [论文地址] High-Resolution Image Synthesis with Latent Diffusion Models [github] https://githu...
-
第三十二章:ChatGPT与AIGC在物联网领域的应用
1.背景介绍 物联网(Internet of Things,IoT 是指通过互联网将物体和设备连接起来,实现数据的传输和共享。物联网技术已经广泛应用于各个领域,如智能家居、智能城市、智能制造、智能农业等。随着数据量的增加和计算能力的提高,人工智能...
-
【AIGC】从零手写一个GPT
手写一个GPT 在GPT,确切的说是Transformer,出现之前,一个问题长久地困扰着人们——如何让两句内容不同、但语义相近的句子得到较为接近的表示。 比如我们有两句话 我喜欢你 吾中意你 它们作为句子内容并不一样,但是表达的含义却...
-
电商:如何使用ChatGPT和AIGC提高电商体验
1.背景介绍 1. 背景介绍 随着互联网的普及和人们对在线购物的需求不断增长,电商已经成为了一个非常热门的行业。为了提高电商体验,提高客户满意度,降低客户流失率,企业需要不断创新和优化自己的在线购物体验。在这里,人工智能(AI 和机器学习(M...
-
【随手记录】Llama Tutorial 大语言模型实践 手把手系列带实践源码
这个tutorial的契机是yy突然看到了一个workshop 所以类似于一周大作业的形式,输入command输出使用了自动驾驶哪些模块,代码在这里 所以就干一干,顺便写一个tutorial给大家参考和教程 引申更多的应用 参考资料: https:...
-
读论文--Token Merging for Fast Stable Diffusion(用于快速Diffusion模型的tome技术)
摘要 The landscape of image generation has been forever changed by open vocabulary diffusion models. However, at their core these...
-
Midjourney V6更新解读与侵权风险警告;AI Agent智能体创业必读;高清图解Mixtral和MoE;2023年度AI设计实践报告 | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? Midjourney V6 文生图细节爆炸,但是被扒叠图电影画面? 左图提示词:a full body editorial santa ho...
-
使用 Transformers 为多语种语音识别任务微调 Whisper 模型
本文提供了一个使用 Hugging Face ? Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时,我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,并提供...
-
使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速
Open AI 推出的 Whisper 是一个通用语音转录模型,在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜,被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据...
-
百度“文心一言”大模型(ERNIE)发布了,对标ChatGPT
大家好,我是微学AI,今天给大家介绍一下基于大语言模型的背景下,国内外的发展现状,以及百度的“文心一言”大模型。 一、自然语言处理模型的发展 自然语言处理(NLP 大模型的发展可以追溯到早期的简单的规则模型,再到后的机器学习,近十年崛起的神经网络和深度...
-
推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历
去年12月,CMU和普林斯顿的2位研究者发布了Mamba架构,瞬间引起AI社区震动! 结果,这篇被众人看好有望「颠覆Transformer霸权」的论文,今天竟曝出疑似被顶会拒收?! 今早,康奈尔大学副教授Sasha Rush最先发现,这篇有望成为奠基之作...
-
AIGC时代智能绘画开启视觉新时代
大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客...
-
NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜
近日,作为美国前十的科技博客,Latent Space对于刚刚过去的NeurIPS 2023大会进行了精选回顾总结。 在NeurIPS会议总共接受的3586篇论文之中,除去6篇获奖论文,其他论文也同样优秀和具有潜力,甚至有可能预示着下一个AI领域的新突破...
-
Mamba论文为什么没被ICLR接收?AI社区沸腾了
基于 Mamba 的创新正不断涌现,但原论文却被 ICLR 放到了「待定区」。 2023年,Transformer 在 AI 大模型领域的统治地位被撼动了。发起挑战的新架构名叫「Mamba」,它是一种选择性状态空间模型( selective state s...
-
甲骨文变身“AI狂战士”,MySQL、Java、OCI,一切技术栈火力全开,猛战AI!
撰稿 | 云昭 出品 | 51CTO技术栈(微信号:blog51cto) 太猛了!甲骨文已经按捺不住,就像找了某种魔法钥匙一般,准备在2024年大干一场! 近日,甲骨文宣布正在将生成式AI功能集成到该公司的整个云服务OCI(Oracle Cloud In...
-
Oracle推出云生成式AI服务 帮助企业部署和微调语言模型
数据库巨头Oracle近日推出了Oracle Cloud Infrastructure Generative AI服务,发布的同时推出了各种创新技术,使大型企业能够利用生成式AI技术的最新成果。 这次推出的OCI Generative AI服务是一项全...
-
stable diffusion在server上的部署测试
SD infinite canvas Automatic1111 vs InvokeAI Automatic1111 vs InvokeAI - pros and cons stablediffusion-infinity 该repo的问题是已...
-
AI绘图-StableDiffusion安装
AI绘图-StableDiffusion安装 前言:StableDiffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs 的文图生成(text-to-image 模型。 它主要用于根据文字的描述产生详细图像,能...
-
AIGC:文生图模型Stable Diffusion
1 Stable Diffusion介绍 Stable Diffusion 是由CompVis、Stability AI和LAION共同开发的一个文本转图像模型,它通过LAION-5B子集大量的 512x512 图文模型进行训练,我们只要简单的输入一段文...
-
【AIGC入门一】Transformers 模型结构详解及代码解析
Transformers 开启了NLP一个新时代,注意力模块目前各类大模型的重要结构。作为刚入门LLM的新手,怎么能不感受一下这个“变形金刚的魅力”呢? 目录 Transformers ——Attention is all You Need 背景...
-
FlashAttention2原理解析以及面向AIGC的加速实践
FlashAttention-2提出后,便得到了大量关注。本文将具体讲述FlashAttention-2的前世今生,包括FlashAttention1&2的原理解析、加速效果比较以及面向AIGC的加速实践,在这里将相关内容与大家分...
-
保姆级教程:从0到1搭建Stable Diffusion XL完整工作流进行AI绘画
Rocky Ding 公众号:WeThinkIn 写在前面 【人人都是算法专家】栏目专注于分享Rocky在AI行业中对业务/竞赛/研究/产品维度的思考与感悟。欢迎大家一起交流学习? 大家好...
-
Stable Diffusion 硬核生存指南:WebUI 中的 VAE
本文使用「署名 4.0 国际 (CC BY 4.0 」许可协议,欢迎转载、或重新修改使用,但需要注明来源。 署名 4.0 国际 (CC BY 4.0 本文作者: 苏洋 创建时间: 2023年07月30日 统计字数: 11485字 阅读时间: 23分钟...
-
【扩散模型】12、Stable Diffusion | 使用 Diffusers 库来看看 Stable Diffusion 的结构
文章目录 一、什么是 Stable Diffusion 二、Diffusers 库 三、微调、引导、条件生成 3.1 微调 3.2 引导 3.3 条件生成 四、Stable Diffusion 4.1 以文本为条件生成 4.2 无分类器的...
-
使用SPIN技术对LLM进行自我博弈微调训练
2024年是大型语言模型(llm 的快速发展的一年,对于大语言模型的训练一个重要的方法是对齐方法,它包括使用人类样本的监督微调(SFT 和依赖人类偏好的人类反馈强化学习(RLHF 。这些方法在llm中发挥了至关重要的作用,但是对齐方法对人工注释数据有的大...
-
LLM之RAG实战(十六)| 使用Llama-2、PgVector和LlamaIndex构建LLM Rag Pipeline
近年来,大型语言模型(LLM)取得了显著的进步,然而大模型缺点之一是幻觉问题,即“一本正经的胡说八道”。其中RAG(Retrieval Augmented Generation,检索增强生成)是解决幻觉比较有效的方法。本文,我们将深入研究使用...
-
2024年1月11日最热AI论文Top5:开源界Stable Diffusion杀手、Prompt-tuning、零和游戏博弈
本文整理了今日发表在ArXiv上的AI论文中最热门的 TOP5。 以下内容由 赛博马良-「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」智能体可提供每日最热论文推荐、AI论文解读等功能。 如需查看其他热门论文,欢迎移步saibo...
-
Chinese-llama-2部署踩坑记录
Chinese-llama-2部署踩坑记录 1. Chinese-LLaMA-Alpaca-2 A. 部署 a. inference_with_transformers_zh b. text generation webui_zh c. a...
-
甲骨文的 OCI 生成式 AI 服务现已推出
Oracle 宣布了 Oracle Cloud Infrastructure(OCI)Generative AI 服务的普遍可用性,以及使企业更轻松地利用生成 AI 的最新进展的新创新。 OCI Generative AI 服务是一项完全托管的服务,无缝集...
-
[论文精读] 自条件图像生成 - 【恺明大神新作,AIGC 新基准】
论文导读: 论文背景: 2023年8月,AI大神何恺明在个人网站宣布,2024年将加入MIT担任教职,回归学术界。这篇论文是其官宣加盟MIT后首度与MIT师生合著的公开论文,论文一作本科毕业于清华姚班,二作为MIT电气工程与计算机科学系教授,今年的斯...
-
基于LLaMA-Factory用deepspeed多GPU训练大模型报错Caught signal 7 (Bus error: nonexistent physical address)
基于LLaMA-Factory,用4个V100的GPU,如下命令训练ChatGLM3: deepspeed --num_gpus 4 --master_port=9901 src/train_bash.py \ --deepspeed ds_co...
-
扩散模型实战(十):Stable Diffusion文本条件生成图像大模型
推荐阅读列表: 扩散模型实战(一):基本原理介绍 扩散模型实战(二):扩散模型的发展 扩散模型实战(三):扩散模型的应用 扩散模型实战(四):从零构建扩散模型 扩散模型实战(五):采样过程 扩散模型实战(六):Diffusers DDPM初探...
-
AIGC神器CLIP:技术详解及应用示例
编者按:上一期,我们介绍了Diffusion模型的发展历程、核心原理及其对AIGC发展的推动作用。本期,我们将共同走进另一项AI重要突破——CLIP,著名的DALLE和Stable Diffusion均采用了CLIP哦。 Nikos Kafrit...
-
大模型部署手记(10)LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中英文对话
1.简介: 组织机构:Meta(Facebook) 代码仓:GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:llama-2-7b、llama-2-7b-chat(...
-
AIGC专栏2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例
AIGC专栏2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例 学习前言 源码下载地址 网络构建 一、什么是Stable Diffusion(SD) 二、Stable Diffusion的组成 三、生...
-
随心玩玩(十三)Stable Diffusion初窥门径
写在前面:时代在进步,技术在进步,赶紧跑来玩玩 文章目录 简介 配置要求 安装部署 下载模型 启动ui 插件安装教程 分区提示词插件 Adetailer插件 提示词的分步采样 采样器选择 采样器的收敛性 UniPC采样器 高分辨率修...
-
AIGC中的视觉生成文献整理
文章目录 文件夹文献总览 图像生成技术 视频生成技术 Video Generation with Text Condition Video Generation with other Conditions Video Editing 生成模...
-
被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署
选自 HuggingFace 博客 编译:赵阳 专家混合 (MoE) 是 LLM 中常用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或「专家」处理。 早些时候,有人爆料...
-
[NLP]LLaMA与LLamMA2解读
摘要 Meta最近提出了LLaMA(开放和高效的基础语言模型 模型参数包括从7B到65B等多个版本。最值得注意的是,LLaMA-13B的性能优于GPT-3,而体积却小了10倍以上,LLaMA-65B与Chinchilla-70B和PaLM-540B具有竞...
-
stable diffusion(1): webui的本地部署(windows)
一、前言 是的,现在是202308月份了,网上已经有很多打包好的工具,或者直接进一个web就能用SD的功能,但是我们作为程序员,就应该去躺坑,这样做也是为了能够有更多自主操作的空间。 像其他AI一样,先出结果才是王道,所以先不直接搞SD源码或者命令行,...
-
AI游戏设计的半年度复盘;大模型+智能音箱再起波澜;昇思大模型技术公开课第2期;出海注册经验分享;如何使用LoRA微调Llama 2 | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? 进步or毁灭:Nature 调研显示 1600+ 科学家对AI的割裂态度 国际顶级期刊 Nature 最近一项调研很有意思,全球 1600 多名科...
-
视觉Mamba来了:速度提升2.8倍,内存能省87%
号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。 本周四,来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba(Vim)。 论文地址:https://arxiv.or...
-
AIGC系列之:ControlNet原理及论文解读
《Adding Conditional Control to Text-to-Image Diffusion Models》 目录 1.背景介绍 2.原理详解 2.1 Controlnet 2.2 用于Stable Diffusion的Contr...
-
Stable Diffusion WebUI 本地部署
前言 系统windows10,显卡NVIDIA RTX 2060s,分享一下stable diffusion webui 本地部署过程以及遇到的问题。其中一些环境已搭建或者软件已安装过的,可以直接跳过。 步骤 1. 安装git git下载地址...
-
ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞
如何根据特定需求选择视觉模型? ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指标上如何相互比较? 来自MABZUAI和Meta的研究人员发表的最新研究,在「非标准」指标上全面比较了常见的视觉模型。 论文地址:ht...
-
Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码
文章目录 01 使用 02 Stable Diffusion 的工作原理 The autoencoder (VAE The U-Net The Text-encoder Latent Diffusion 又快又高效的原因 Stable Di...
-
如何将知识图谱与AIGC结合?京东是这么做的
一、导言 首先介绍一下京东在电商场景下 AIGC 方面的探索。 这是一个商品营销文案自动生成的全景图,自下而上首先是商品的输入信息。输入信息是异构多源的,包括商品的商详页里的图片、文本、商品的标题以及商品的知识图谱。通用的知识图谱是三元组的形式,...
-
使用 Transformers 为多语种语音识别任务微调 Whisper 模型
本文提供了一个使用 Hugging Face ? Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时,我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,...
-
【Stable Diffusion XL】huggingface diffusers 官方教程解读
文章目录 01 Tutorial Deconstruct a basic pipeline Deconstruct the Stable Diffusion pipeline Autopipeline Train a diffusion mo...
-
书生·浦语2.0体验入口 AI聊天InternLM2模型在线使用地址
「InternLM2」书生·浦语2.0是一款面向中文和英文的大型多语言预训练语言模型,标志着自然语言处理技术的新时代。它不仅在语言理解和生成方面有着出色的表现,还能够进行多模式推理和代码理解。这种基于Transformer架构的模型通过海量数据的预训练,在...