-
Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型
具身智能,是大模型未来应用的一个重要方向。 现在,大模型加持下的智能体,能够参与3D环境,不仅有了听觉视觉,还有了触觉等多种感官能力。 卧室里有什么物体,一眼辨认。 听到门铃响了,LLM便会告诉你家里来客人了。 大模型加持的NPC,在触摸桌子的香蕉后,...
-
在 Linux 本地部署 stable diffusion
由于工作站安装的是 ubuntu,卡也在上面,就只能在 ubuntu 上部署安装 stable diffusion 了。另外,Linux 上使用 stable diffusion 也会方便很多。 1 准备工作 NVIDIA 官网下载驱动,主要是为了...
-
AIGC文生图及工具产品简介
AIGC,全称是人工智能生成内容(Artificial Intelligence Generated Content)是继UGC(用户生成内容),PGC(平台生成内容)后,利用人工智能技术,自动生成内容的生产方式; 目前主要利用&集成自然语言处理、...
-
AIGC内容分享(二十):「AI视频生成」技术核心基础知识和模型应用
目录 何为AI视频? 一、技术发展概况 二、代表模型及应用 三、仍存在许多技术难点 何为AI视频? 「AI视频」通常指的是由人工智能(AI)技术生成或处理的视频。这可能包括使用深度学习、计算机视觉和其他相关技术来改善视频的质...
-
随心玩玩(十三)Stable Diffusion初窥门径
写在前面:时代在进步,技术在进步,赶紧跑来玩玩 文章目录 简介 配置要求 安装部署 下载模型 启动ui 插件安装教程 分区提示词插件 Adetailer插件 提示词的分步采样 采样器选择 采样器的收敛性 UniPC采样器 高分辨率修...
-
AI绘画软件Stable Diffusion模型/Lora/VAE文件存放位置
型下载说明(下载模型后输入对应参数即可生成) 建议直接去civitai.com找模型,如果无法找到可以在幕后模型区找也可以去, 下载好后放入对应的文件夹。进入127.0.0.1:7680 左上角刷新即可看到新的模型。 模型种类 大模型 大模型...
-
4个令人惊艳的ChatGPT项目,开源了!AIGC也太猛了...
大家好啊~ 自从 ChatGPT、Stable Diffusion 发布以来,各种相关开源项目百花齐放,着实让人应接不暇。 今天,我将着重挑选几个优质的开源项目,对我们的日常工作、学习生活,都会有很大的帮助。 今天整理分享给大家,希望对你有所帮助。...
-
LLaMA Board: 通过一站式网页界面快速上手 LLaMA Factory
原文:https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md 👋 加入我们的微信群。 [ English | 中文 ] LLaMA Board: 通过一站式网页界面快速上手...
-
腾讯太极文生图大模型,带你一起感受祖国大好河山
一、背景 随着大规模预训练模型的蓬勃发展和算力的大规模提升,业界和学界在图片生成这个领域也取得了非常大的进展。在AIGC(AI Generated Content)这个领域,随着英文Stable Diffusion模型的开源,催生出了很多AI绘画相关的...
-
AIGC: 关于ChatGPT中实现一个聊天机器人
规划一个聊天机器人 智能化完全于依托于GPT, 而产品化是我们需要考虑的事情 比如,如何去构建一个聊天机器人 聊天机器人它的处理逻辑其实非常的清晰 我们输入问题调用 GPT 然后,GPT 给我们生成回答就可以了 需要注意的是,聊天机器人不...
-
Stable Diffusion1.5网络结构-超详细原创
目录 1 Unet 1.0 介绍 1.1详细整体结构 1.2 缩小版整体结构 1.3 时间步编码 1.4 CrossAttnDownBlock2D 1.4.1 ResnetBlock2D 1.4.2 Transformer2DModel...
-
如何部署Stable Diffusion WebUI Windows + 无科学上网版
如何部署Stable Diffusion WebUI 无科学上网版 一些背景 一些需求 硬件需求(可选) 软件需求 一些细节 检查nvidia driver查看对应cuda版本 安装cuda 安装cuDNN 安装GPU版pytorch 安...
-
Stable Diffusion 源码解析(1)
参考1:https://blog.csdn.net/Eric_1993/article/details/129393890 参考2:https://zhuanlan.zhihu.com/p/613337342 1.StableDiff...
-
stable diffusion(1): webui的本地部署(windows)
一、前言 是的,现在是202308月份了,网上已经有很多打包好的工具,或者直接进一个web就能用SD的功能,但是我们作为程序员,就应该去躺坑,这样做也是为了能够有更多自主操作的空间。 像其他AI一样,先出结果才是王道,所以先不直接搞SD源码或者命令行,...
-
全网最全AI绘画Stable Diffusion关键技术解析
背景 很多人觉得AI绘画不稳定,对于以后是否替代插画师,摄影工作者,设计师,表示存疑,作为AI从业者本文从AI绘画关键技术分析,明白以前生产者肯定会被淘汰,现在没有到达黄金期。 技术一定会让更多人失业,而我们拥抱变化,增强自身。 AI绘画中Stab...
-
【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM
文章目录 一、Intruduction 二、Segment Anything Task 三、Segment Anything Model 四、Segment Anything Data Engine 五、Segment Anything Dat...
-
使用代理时Stable Diffusion无法正常下载各类模型的解决办法
最近发现了 Stable Diffusion 这个好玩的ai绘画工具,不得不感叹现在ai工具已经进化到这么简单易用的程度,只要下载对应的模型就可以生成各种有意思的图片 就算你没有编程基础,跟着教程也能弄出来 不过使用过程中发现部分功能无法使用 查看...
-
AIGC周报|30秒定制一个文生图模型;60美元让AI玩转《我的世界》;手机版“文生图”模型:2秒不到出一张图
AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来...
-
将Github Copilot转换为免费使用GPT-4
模型参数支持 GPT-4 和 GPT-3.5-turbo ,实测使用其他模型均会以默认的 3.5 处理(对比 OpenAI API 的返回结果,猜测应该是最早的版本 GPT-4-0314 和 GPT-3.5-turbo-0301 ) 获取 Copilot...
-
win11下部署stable diffusion docker版遇到的问题和解决方案
背景 为了在本地愉快流畅地体验stable diffsion,且不希望直接在windows中安装过多复杂的环境,顺便体验容器的部署和发布的便利,决定选择stable diffusion的docker版(AbdBarho版)。 网上已经有很多stabl...
-
AIGC大模型之——以文生图介绍
一、什么是以文生图? 以文生图是AIGC ( AI Generated Content )框架中的一个关键技术,通过文字描述,将文字转化为图像并展示出来。以文生图具有白动化程度高、精度高、可扩展性强、可定制化等优势,具有广泛的应用前景,可以...
-
用uniapp跨平台开发一款商用的ai绘图ai作画软件的全过程
随着科技的发展,人工智能将会是以后的主流方向,ai绘图、chatgpt高科技先后出台,都获得了火爆的发展,因此想借着势头开发一款主打ai绘图的app+小程序 一、前期准备 1、选定技术框架 因为后面需要多平台发布,而尽可能减少开发成本,因此选定了...
-
最近读的AIGC相关论文思路解读
AIGC之SD可控生成论文阅读记录 提示:本博客是作者本人最近对AIGC领域相关论文调研后,临时记录所用,所有观点都是来自作者本人局限理解,以及个人思考,不代表对。如果你也正好看过相关文章,发现作者的想法和思路有问题,欢迎评论区留言指正! 既然是论...
-
2023-12-30 AIGC-LangChain介绍
摘要: 2023-12-30 AIGC-LangChain介绍 LangChain介绍 1. https://youtu.be/Ix9WIZpArm0?t=353 2. https://www.freecodecamp.org/news/la...
-
Stable-diffusion-WebUI 的API调用(内含文生图和图生图实例)
前情提要 在之前尝试使用Diffusers库来进行stable-diffusion的接口调用以及各种插件功能实现,但发现diffusers库中各复杂功能的添加较为麻烦,而且难以实现对采样器的添加,safetensors格式模型的读取。在官网上找到了web...
-
AI绘画与多模态原理解析:从CLIP到DALLE1/2、DALLE 3、Stable Diffusion、SDXL Turbo、LCM
前言 终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时...
-
文心一言,通营销之学,成一家之言,百度人工智能AI大数据模型文心一言Python3.10接入
“文心”取自《文心雕龙》一书的开篇,作者刘勰在书中引述了一个古代典故:春秋时期,鲁国有一位名叫孔文子的大夫,他在学问上非常有造诣,但是他的儿子却不学无术,孔文子非常痛心。 一天,孔文子在山上遇到了一位神仙,神仙告诉他:“你的儿子之所以不学无术,是因为你没...
-
AIGC系列之:ControlNet原理及论文解读
《Adding Conditional Control to Text-to-Image Diffusion Models》 目录 1.背景介绍 2.原理详解 2.1 Controlnet 2.2 用于Stable Diffusion的Contr...
-
Java调用Midjourney进行AI画图原生版抓包实现支持中文
用途介绍 Midjourney是一个目前优秀的AI画图工具,不挂梯无法直接访问 本代码主要用于搭建镜像站使用 适合人群 本代码不适合新手,建议使用过okhttp、且具有二开能力的同学使用~ 实现原理 通过调用发送信息接口发送请求,通过轮询房间消...
-
Stable Diffusion WebUI 本地部署
前言 系统windows10,显卡NVIDIA RTX 2060s,分享一下stable diffusion webui 本地部署过程以及遇到的问题。其中一些环境已搭建或者软件已安装过的,可以直接跳过。 步骤 1. 安装git git下载地址...
-
Stable Diffusion 真人照片转动漫风格
相信我们很多人在看过动漫/动画后,都想看一看二次元世界中的自己长什么样子,那今天就以客户照片为例,说说我们如何用 Stable Diffusion,让 AI 帮我们将真实照片转成一个绝美二次元少女,Let’s do it~ ...
-
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
Sam Altman在各种场合都提到,大语言模型的多模态能力,是未来AI技术能够造福人类的最亟待突破的领域。 那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平? 当前多模态模型取得的进步很大程度上归功于大语言模型(LLM)的推理能力。但在视...
-
ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞
如何根据特定需求选择视觉模型? ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指标上如何相互比较? 来自MABZUAI和Meta的研究人员发表的最新研究,在「非标准」指标上全面比较了常见的视觉模型。 论文地址:ht...
-
Android Studio安装AI编程助手Github Copilot
csdn原创谢绝转载 简介 文档链接 https://docs.github.com/en/copilot/getting-started-with-github-copilot 它是个很牛B的编程辅助工具,装它,快装它. 支持以下IDE: In...
-
Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码
文章目录 01 使用 02 Stable Diffusion 的工作原理 The autoencoder (VAE The U-Net The Text-encoder Latent Diffusion 又快又高效的原因 Stable Di...
-
Midjourney的一些“咒语”【自用-1】
学习思路:翻译成英文就可以 公式是:主体描绘 + 核心主体 + 主体动作 + 风格 + 光效 + 色彩 + 视角 + 质量 + 命令 描写人物可添加的修饰词:服装细节精致, 咒语001:中国风 一位穿着红色汉服、中式风格的女孩,原始照片,长发,...
-
使用 Transformers 为多语种语音识别任务微调 Whisper 模型
本文提供了一个使用 Hugging Face 🤗 Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时,我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,...
-
论文阅读_善用Midjourney
论文信息 name_en: Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales name_ch: 用Midjourney生成格林童话插图 pa...
-
【Stable Diffusion XL】huggingface diffusers 官方教程解读
文章目录 01 Tutorial Deconstruct a basic pipeline Deconstruct the Stable Diffusion pipeline Autopipeline Train a diffusion mo...
-
【慕伏白】stable diffusion webui 使用手册
文章目录 Global Parameters 1. Stable Diffusion checkpoint 2. Functions text2img 1. Prompt Prompt Editing 2. Negative prompt...
-
AIGC图像应该如何描述
这个markdown使用了mermaid语言,展示了一个图表,包含两个流程图。第一个流程图是一个节点1连接着5个不同的节点,这5个节点是与图片关键词相关的位置、形状、颜色和名称,他们在第二个流程图中被展开,分为了不同的子节点。这些节点分别是:位置、形状、颜...
-
【论文简介】Stable Diffusion的基础论文:2112.High-Resolution Image Synthesis with Latent Diffusion Models
稳定扩散生成模型(Stable Diffusion 是一种潜在的文本到图像扩散模型,能够在给定任何文本输入的情况下生成照片般逼真的图像 Stable Diffusion 是基于latent-diffusion 并与 Stability AI and Run...
-
Amazon CodeWhisperer:AI 编程助手
文章作者:prigioni 1. 什么是 Amazon CodeWhisperer? Amazon CodeWhisperer 能够理解以自然语言(英语)编写的注释,并能实时生成多条代码建议,以此提高开发人员生产力。该服务可以直接在集成开发环境(I...
-
【AIGC】Controlnet:基于扩散模型的文生图的可控性
前言 controlnet可以让stable diffusion的生图变得可控。 文章连接:https://arxiv.org/pdf/2302.05543.pdf 摘要 冻结了stable diffusion的预训练模型并重用它的预训练...
-
Stable Diffusion模型概述
Stable Diffusion 1. Stable Diffusion能做什么? 2. 扩散模型 2.1 正向扩散 2.2 反向扩散 3. 训练如何进行 3.1 反向扩散 3.2 Stable Diffusion模型 3.3 潜在扩散模...
-
AI绘画指南:在CentOS7中安装Stable Diffusion WebUI
一、安装GPU驱动 1.1 购买云服务器 在腾讯云选购一台GPU型的服务器(最好的境外的,境外的服务器后面关于镜像加速的步骤都可以跳过) 购买成功之后腾讯的站内信会发送初始的密码给你,登录成功后会自动帮我们安装相关的驱动,提示整个过程大概需要20分...
-
深入浅出解析Stable Diffusion完整核心基础知识 | 【算法兵器谱】
Rocky Ding 公众号:WeThinkIn 最新更新: Rocky也一直在更新Stable Diffusion系列的文章内容,包括最新发布的Stable Diffusion XL。Rocky都进行...
-
复现问题记录 | Stable Diffusion(LDM) (in python3)(一)
复现 环境 代码 util.py 测试 Text-to-Image 直接使用网页生成 记录复现LDM遇到的问题 环境 conda env create -f environment.yaml 根据environment.ya...
-
大型语言模型检索增强生成利器——向量搜索引擎
译者 | 朱先忠 审校 | 重楼 简介 随着大型语言模型(LLM)席卷全球,向量搜索引擎也紧随其后。同时,向量数据库也构成大型语言模型长期记忆系统的基础。 通过有效的算法找到相关信息并使其作为上下文传递给语言模型,向量搜索引擎可以提供超出训练截止值的最...
-
Whisper与ChatGPT联手,轻松实现音频转录文本
目录 前言 一、Whisper简介 二、Whisper可用的模型和语言 三、开源 Whisper 本地转录 3.1、安装pytube库 3.2、下载音频MP4文件 3.3、安装 Whisper 库 四、在线 Whisper API 转录...